圆滚滚的程序员-CSDN博客

原创爬取某不知名短视频小平台

【代码】爬取某不知名短视频小平台。

2024-04-13 11:01:13 189 1

协程：在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象任务对象：任务对象=高级的协程对象(进一步封装)=特殊的函数，任务对象必须要注册到时间循环对象中，给任务对象绑定回调:爬虫的数据解析中事件循环：当做是一个装载任务对象的容器，当启动事件循环对象的时候,存储在内的任务对象会异步执行先起个flask服务from flask import Flaskimport timeapp = Flask(__name__)@app.route('

2022-04-21 15:25:39 898

原创无聊之重学c/c++

#include <iostream>#include <iomanip>#include<stdio.h>#include<string>#include <fstream>using namespace std;int main(){ double r, s, l; cin >> r; s = 3.14 * r * r; l = 2 * 3.14 * r; cout &l.

2022-02-18 10:43:02 498

原创基于pygame库编写的五子棋游戏

基于pygame五子棋游戏

2022-01-10 17:19:06 291

原创查找排序算法

#无序表查找def sequentialSearch(alist , item): pos = 0 found =False while pos < len(alist) and not found : if alist[pos] == item: found = True else: pos = pos+1 return found#有序表查找def orderSequentia

2021-12-25 14:23:01 308

原创算法硬币找零问题

win10+python3.8问题：自定义硬币体系，最少找零数#找零递归def recMC(coinValueList,change): minCoins = change if change in coinValueList: return 1 else: for i in [c for c in coinValueList if c <= change] : numCoins = 1 + recMC(coinVa

2021-12-11 19:41:51 712

原创几行代码教你爬取LOL皮肤图片

环境win10+ython3.8import requestsimport reimport jsonbase_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big'url = 'https://lol.qq.com/biz/hero/champion.js'respon = requests.get(url=url).textdata = re.search(r'"ID":(.*?),"NAME":',respon).group(

2021-12-04 13:03:58 388

原创队列解决约瑟夫问题

队列 Queue 数据的添加发生在尾端，数据的移除发生在首端仅有一个出口一个入口First-in First-out, FIFO实例，操作系统进程调度，I/O缓冲class Queue: def __init__(self): self.items = [] def idEmpty(self): return self.items == [] def enqueue(self,item): self.items.insert(0

2021-11-28 21:38:29 383

原创基于QQwebAPI 查询昵称和头像的爬虫

API详解见QQWEB文档。环境python3.8+winimport requestsimport refrom PIL import Imagefrom io import BytesIOdef getQQPhoto(qqCode): url ="https://q4.qlogo.cn/g?b=qq&nk={}&s=100".format(qqCode) headers = { 'Referer': 'http://pic.netbian.c

2021-11-28 17:37:20 1040

原创解决python +Selenium无法获取window.showModalDialog()弹窗对象问题

节假日买个车票是真艹蛋，构思着写个脚本抢票。遇到Selenium无法获取window.showModalDialog()弹窗对象问题。听起来比较可信的说法是：Selenium目前没有提供对IE模态对话框(即通过showModalDialog方法打开的弹出对话框)的处理。原因在于，模态对话框会将父页面的JS挂起，直至对话框处理完毕才会继续执行父页面JS。因为Selenium的底层实现是基于JS的，所以模态对话框会同时将selenium挂起，selenium无法选中模态对话框，直至超时。解决：selen

2021-09-13 21:21:14 1566

原创 selenium+webdriver+chrome实现百度以图搜图

1. 环境搭建1).webdriver+chrome的版本需匹配。2).打开chrome 输入 “chrome://version/”来查看chrome版本访问此网站谷歌浏览器驱动然后选择合适版本webdriver2.收集原始图片和构建图床1).将图片做成可以被百度访问的url（第一次搭建在公司服务器上网页能访问但以图搜图访问不到，此处黑人问号，不知为啥。。。）推荐上传到github上，将github作为一个临时的图床使用。参考链接3.完整代码和参数说明1).请求头spider_seti

2021-03-04 12:16:38 883 1

原创爬取彩票数据

import requestsimport jsonimport csvfrom user_agents import UAdef post_request(url,data): HEADER = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep

2020-08-23 11:34:24 1444

转载词频统计

# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库# 读取文件fn = open('article.txt') # 打开文件string_data = f

2020-08-17 10:30:53 222

原创 pyppeteer爬虫

import asyncioimport pyppeteerfrom user_agents import UAfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers history status")async def get_html(url, timeout=30): browser = await pyppeteer.launch(headless=Tr

2020-08-14 09:53:48 361

原创爬西瓜视频url

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomfrom zlib import crc32from base64 import b64decodeUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CL

2020-06-13 20:07:14 1068

原创爬取手游网站游戏详情和评论（MQ+多线程）

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomimport jsonimport threadingfrom queue import Queueimport timefrom lxml import etree#生产者USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1

2020-06-13 11:22:15 396

原创多线程爬取马可波罗网供应商数据

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomfrom queue import Queueimport threadingimport requestsfrom usere_agent import UAfrom lxml import etreeHEADER = { 'User-Agent': UA, 'Accept': 'text/html,appl

2020-05-25 19:45:44 310

原创爬取小米有品app商品数据

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport csvimport requestsfrom lxml import etreeimport reimport randomimport jsonfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib

2020-05-24 19:18:18 1164

原创爬取汽车之家北京地区汽车详细数据

本文旨在交流学习，勿作他用，否则后果自负环境 win+pycharm+anacondaimport reimport csvimport requestsfrom lxml import etreefrom user_agent import UAhead = { 'User-Agent': UA, 'X-Requested-With': 'XMLHttpRequest', 'Referer': '*/*', 'Accept-Language': 'zh-CN,

2020-05-22 18:22:49 431

原创爬取蝉妈妈数据平台商品数据

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport requestsfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)he

2020-05-21 22:07:22 7402 1

原创 python实现5种加密

import hashlibimport base64import hmac#MD5def md_5(): m = hashlib.md5() #生成一个md5加密对象 str = "明文" m.update(str.encode("utf8")) #指定要加密的字符串的字符编码 print(m.hexdigest())md_5()#base64def base_64(): str = "明文".encode(enc

2020-05-20 10:01:15 471

原创多线程爬取斗图啦网表情包

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport queueimport requestsimport threadingfrom lxml import etreefrom user_agent import UAclass Spider_img(threading.Thread): def __init__(self,url_queue): super(Spider_img, self).__init__()

2020-05-19 15:40:22 326

原创爬取开眼app小视频

本文旨在交流学习，勿作他用，否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Wi

2020-05-18 19:58:43 951

原创大批量按关键词爬取搜狗图片

本文旨在交流学习，勿作他用，否则后果自负import requestsimport jsonimport csvimport randomimport urllibimport osUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatibl

2020-05-17 17:38:25 465

原创爬取百度地图店家信息

本文旨在交流学习，勿作他用，否则后果自负import jsonimport csvimport randomimport requestsimport pandas as pdUSER_AGENTS = [ "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; z

2020-05-17 17:32:22 2240 2

原创多线程爬取包图网背景音乐

本文旨在交流学习，勿作他用，否则后果自负import csvimport threadingimport randomimport requestsfrom lxml import etreefrom queue import Queuefrom requests import exceptionsfrom socket import error as SocketErrorUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; W

2020-05-16 20:13:55 434

原创大批量按关键词爬取百度图片

本文旨在交流学习，勿作他用，否则后果自负import csvimport requestsimport jsonimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows N

2020-05-16 20:04:35 351 1

原创爬豆瓣图书排行top250

本文旨在交流学习，勿作他用，否则后果自负from lxml import etreeimport requestsfrom user_agent import UAHEADER = { 'User-Agent':UA, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en-US,en;q=0.5', 'Connection

2020-05-15 17:13:56 447

原创一个鸡肋的官方微信公众号爬取接口小demo

本文旨在交流学习，文章勿作他用，否则后果自负import wechatsogouws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3,timeout=30)gzh_name = '数据挖掘工程师'data = ws_api.get_gzh_article_by_history(gzh_name)print(data)

2020-05-15 14:27:49 597

转载爬取b站用户信息

本文纯属学习交流，请勿做它用，违者后果自负import requestsimport jsonimport randomimport datetimeimport timefrom user_agent import UAfrom multiprocessing.dummy import Pool as ThreadPooldef datetime_to_timestamp_in_milliseconds(d): def current_milli_time(): r

2020-05-15 13:43:45 1601

原创爬取西窗烛app

本文旨在学习，不可做商业用途import csvimport jsonimport requestsimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; A

2020-05-14 13:59:25 809 6

原创爬取pexels网图片

内容只为学习，不得用于商业用途import jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser;

2020-05-14 13:49:24 923

原创淘宝爬取

代码只为学习使用，误做商业用途import reimport randomimport requestsfrom ip_代理 import proxyUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windo

2020-05-13 15:36:08 909

原创求助，像滴滴，携程这些程序中的地图定位怎么实现的

2020-05-07 00:33:11 462

原创 python数据分析-柱状图绘制及常用参数设置

linux+pycharm+anaconda#柱形图绘制与参数设置#plt.bar(x,height,width,bottom,align,color,edgecolor)"""X 表示在什么位置显示柱形图height 表示每根柱子的高度width 表示每根柱子的宽度，每根柱子的宽度可以都一样，也可以各不相同bottom 表示每根柱子的底部位置，每根柱子的底部位置可以都一样，也可以各...

2020-03-09 19:18:58 5656

原创 python数据分析-折线绘制和常用参数设置

linux+pycharm+anaconda折线绘制和常用参数设置详解import matplotlib.pyplot as pltimport numpy as np#建立一个坐标系#plt.subplot(2,2,1)plt.subplot(1,1,1)#指明x和y值x = np.array([1, 2, 3,4, 5,6,7,8,9])y = np.array([ 866,...

2020-03-07 19:25:02 530

原创 python数据分析-成图

linux+pycharm+anaconda#数据可视化import matplotlib.pyplot as plt#创建画布fig=plt.figure(figsize=(8,6))#创建坐标系axl=fig.add_subplot(1,1,1) #显示plt.show()#同时创建多个坐标系import matplotlib.pyplot as pltfig=plt....

2020-03-05 19:22:08 346

原创 python爬虫-妹子图片

linux+pycharm+anacondafrom selenium import webdriverfrom lxml import etreeimport requestsimport timeoptions = webdriver.ChromeOptions()options.set_headless()driver = webdriver.Chrome(options=op...

2020-03-04 16:15:04 367

原创 python数据分析基础-表拼接

linux+pycharm+anaconda#多表拼接,merge默认用两列公共列为链接键,on来指定链接键,可为多列import pandas as pdimport numpy as np data1=pd.DataFrame([[20,99999,6,"c"],[30,999999,6,"c++"],[20,999994,8,"UI"],[27,999999,6,"c++"],[3...

2020-03-02 18:46:05 427

空空如也

空空如也