- 博客(52)
- 收藏
- 关注
原创 爬虫效率提升方法
协程:在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象任务对象:任务对象=高级的协程对象(进一步封装)=特殊的函数,任务对象必须要注册到时间循环对象中,给任务对象绑定回调:爬虫的数据解析中事件循环:当做是一个装载任务对象的容器,当启动事件循环对象的时候,存储在内的任务对象会异步执行先起个flask服务from flask import Flaskimport timeapp = Flask(__name__)@app.route('
2022-04-21 15:25:39 834
原创 无聊之重学c/c++
#include <iostream>#include <iomanip>#include<stdio.h>#include<string>#include <fstream>using namespace std;int main(){ double r, s, l; cin >> r; s = 3.14 * r * r; l = 2 * 3.14 * r; cout &l.
2022-02-18 10:43:02 449
原创 查找排序算法
#无序表查找def sequentialSearch(alist , item): pos = 0 found =False while pos < len(alist) and not found : if alist[pos] == item: found = True else: pos = pos+1 return found#有序表查找def orderSequentia
2021-12-25 14:23:01 281
原创 算法硬币找零问题
win10+python3.8问题:自定义硬币体系,最少找零数#找零递归def recMC(coinValueList,change): minCoins = change if change in coinValueList: return 1 else: for i in [c for c in coinValueList if c <= change] : numCoins = 1 + recMC(coinVa
2021-12-11 19:41:51 662
原创 几行代码教你爬取LOL皮肤图片
环境win10+ython3.8import requestsimport reimport jsonbase_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big'url = 'https://lol.qq.com/biz/hero/champion.js'respon = requests.get(url=url).textdata = re.search(r'"ID":(.*?),"NAME":',respon).group(
2021-12-04 13:03:58 336
原创 队列解决约瑟夫问题
队列 Queue 数据的添加发生在尾端,数据的移除发生在首端仅有一个出口一个入口First-in First-out, FIFO实例,操作系统进程调度,I/O缓冲class Queue: def __init__(self): self.items = [] def idEmpty(self): return self.items == [] def enqueue(self,item): self.items.insert(0
2021-11-28 21:38:29 331
原创 基于QQwebAPI 查询昵称和头像的爬虫
API详解见QQWEB文档。环境python3.8+winimport requestsimport refrom PIL import Imagefrom io import BytesIOdef getQQPhoto(qqCode): url ="https://q4.qlogo.cn/g?b=qq&nk={}&s=100".format(qqCode) headers = { 'Referer': 'http://pic.netbian.c
2021-11-28 17:37:20 869
原创 解决python +Selenium无法获取window.showModalDialog()弹窗对象问题
节假日买个车票是真艹蛋,构思着写个脚本抢票。遇到Selenium无法获取window.showModalDialog()弹窗对象问题。听起来比较可信的说法是:Selenium目前没有提供对IE模态对话框(即通过showModalDialog方法打开的弹出对话框)的处理。原因在于,模态对话框会将父页面的JS挂起,直至对话框处理完毕才会继续执行父页面JS。因为Selenium的底层实现是基于JS的,所以模态对话框会同时将selenium挂起,selenium无法选中模态对话框,直至超时。解决:selen
2021-09-13 21:21:14 1481
原创 selenium+webdriver+chrome实现百度以图搜图
1. 环境搭建1).webdriver+chrome的版本需匹配。2).打开chrome 输入 “chrome://version/”来查看chrome版本访问此网站 谷歌浏览器驱动 然后选择合适版本webdriver2.收集原始图片和构建图床1).将图片做成可以被百度访问的url(第一次搭建在公司服务器上网页能访问但以图搜图访问不到,此处黑人问号,不知为啥。。。)推荐上传到github上,将github作为一个临时的图床使用。参考链接3.完整代码和参数说明1).请求头spider_seti
2021-03-04 12:16:38 792 1
原创 爬取彩票数据
import requestsimport jsonimport csvfrom user_agents import UAdef post_request(url,data): HEADER = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep
2020-08-23 11:34:24 1336
转载 词频统计
# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库# 读取文件fn = open('article.txt') # 打开文件string_data = f
2020-08-17 10:30:53 178
原创 pyppeteer爬虫
import asyncioimport pyppeteerfrom user_agents import UAfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers history status")async def get_html(url, timeout=30): browser = await pyppeteer.launch(headless=Tr
2020-08-14 09:53:48 314
原创 爬西瓜视频url
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomfrom zlib import crc32from base64 import b64decodeUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CL
2020-06-13 20:07:14 945
原创 爬取手游网站游戏详情和评论(MQ+多线程)
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomimport jsonimport threadingfrom queue import Queueimport timefrom lxml import etree#生产者USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1
2020-06-13 11:22:15 353
原创 多线程爬取马可波罗网供应商数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomfrom queue import Queueimport threadingimport requestsfrom usere_agent import UAfrom lxml import etreeHEADER = { 'User-Agent': UA, 'Accept': 'text/html,appl
2020-05-25 19:45:44 237
原创 爬取小米有品app商品数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport csvimport requestsfrom lxml import etreeimport reimport randomimport jsonfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib
2020-05-24 19:18:18 1034
原创 爬取汽车之家北京地区汽车详细数据
本文旨在交流学习,勿作他用,否则后果自负环境 win+pycharm+anacondaimport reimport csvimport requestsfrom lxml import etreefrom user_agent import UAhead = { 'User-Agent': UA, 'X-Requested-With': 'XMLHttpRequest', 'Referer': '*/*', 'Accept-Language': 'zh-CN,
2020-05-22 18:22:49 368
原创 爬取蝉妈妈数据平台商品数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport requestsfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)he
2020-05-21 22:07:22 6739 1
原创 python实现5种加密
import hashlibimport base64import hmac#MD5def md_5(): m = hashlib.md5() #生成一个md5加密对象 str = "明文" m.update(str.encode("utf8")) #指定要加密的字符串的字符编码 print(m.hexdigest())md_5()#base64def base_64(): str = "明文".encode(enc
2020-05-20 10:01:15 433
原创 多线程爬取斗图啦网表情包
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport queueimport requestsimport threadingfrom lxml import etreefrom user_agent import UAclass Spider_img(threading.Thread): def __init__(self,url_queue): super(Spider_img, self).__init__()
2020-05-19 15:40:22 296
原创 爬取开眼app小视频
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Wi
2020-05-18 19:58:43 695
原创 大批量按关键词爬取搜狗图片
本文旨在交流学习,勿作他用,否则后果自负import requestsimport jsonimport csvimport randomimport urllibimport osUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatibl
2020-05-17 17:38:25 420
原创 爬取百度地图店家信息
本文旨在交流学习,勿作他用,否则后果自负import jsonimport csvimport randomimport requestsimport pandas as pdUSER_AGENTS = [ "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; z
2020-05-17 17:32:22 2142 2
原创 多线程爬取包图网背景音乐
本文旨在交流学习,勿作他用,否则后果自负import csvimport threadingimport randomimport requestsfrom lxml import etreefrom queue import Queuefrom requests import exceptionsfrom socket import error as SocketErrorUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; W
2020-05-16 20:13:55 395
原创 大批量按关键词爬取百度图片
本文旨在交流学习,勿作他用,否则后果自负import csvimport requestsimport jsonimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows N
2020-05-16 20:04:35 309 1
原创 爬豆瓣图书排行top250
本文旨在交流学习,勿作他用,否则后果自负from lxml import etreeimport requestsfrom user_agent import UAHEADER = { 'User-Agent':UA, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en-US,en;q=0.5', 'Connection
2020-05-15 17:13:56 262
原创 一个鸡肋的官方微信公众号爬取接口小demo
本文旨在交流学习,文章勿作他用,否则后果自负import wechatsogouws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3,timeout=30)gzh_name = '数据挖掘工程师'data = ws_api.get_gzh_article_by_history(gzh_name)print(data)
2020-05-15 14:27:49 500
转载 爬取b站用户信息
本文纯属学习交流,请勿做它用,违者后果自负import requestsimport jsonimport randomimport datetimeimport timefrom user_agent import UAfrom multiprocessing.dummy import Pool as ThreadPooldef datetime_to_timestamp_in_milliseconds(d): def current_milli_time(): r
2020-05-15 13:43:45 1384
原创 爬取西窗烛app
本文旨在学习,不可做商业用途import csvimport jsonimport requestsimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; A
2020-05-14 13:59:25 712 6
原创 爬取pexels网图片
内容只为学习,不得用于商业用途import jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser;
2020-05-14 13:49:24 859
原创 淘宝爬取
代码只为学习使用,误做商业用途import reimport randomimport requestsfrom ip_代理 import proxyUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windo
2020-05-13 15:36:08 855
原创 python数据分析-柱状图绘制及常用参数设置
linux+pycharm+anaconda#柱形图绘制与参数设置#plt.bar(x,height,width,bottom,align,color,edgecolor)"""X 表示在什么位置显示柱形图height 表示每根柱子的高度width 表示每根柱子的宽度,每根柱子的宽度可以都一样,也可以各不相同bottom 表示每根柱子的底部位置,每根柱子的底部位置可以都一样,也可以各...
2020-03-09 19:18:58 5438
原创 python数据分析-折线绘制和常用参数设置
linux+pycharm+anaconda折线绘制和常用参数设置详解import matplotlib.pyplot as pltimport numpy as np#建立一个坐标系#plt.subplot(2,2,1)plt.subplot(1,1,1)#指明x和y值x = np.array([1, 2, 3,4, 5,6,7,8,9])y = np.array([ 866,...
2020-03-07 19:25:02 476
原创 python数据分析-成图
linux+pycharm+anaconda#数据可视化import matplotlib.pyplot as plt#创建画布fig=plt.figure(figsize=(8,6))#创建坐标系axl=fig.add_subplot(1,1,1) #显示plt.show()#同时创建多个坐标系import matplotlib.pyplot as pltfig=plt....
2020-03-05 19:22:08 260
原创 python爬虫-妹子图片
linux+pycharm+anacondafrom selenium import webdriverfrom lxml import etreeimport requestsimport timeoptions = webdriver.ChromeOptions()options.set_headless()driver = webdriver.Chrome(options=op...
2020-03-04 16:15:04 313
原创 python数据分析基础-表拼接
linux+pycharm+anaconda#多表拼接,merge默认用两列公共列为链接键,on来指定链接键,可为多列import pandas as pdimport numpy as np data1=pd.DataFrame([[20,99999,6,"c"],[30,999999,6,"c++"],[20,999994,8,"UI"],[27,999999,6,"c++"],[3...
2020-03-02 18:46:05 315
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人