爬虫
圆滚滚的程序员
毕业于清明庙初中,精通地球科学,会花式打产状,背几袋化学样一口气跑一天不觉累,梦想是将数据挖掘和人工智能知识与地质科学结合,开着挖掘机去巴里坤找矿
展开
-
selenium JD爬虫
selenium JD爬虫原创 2022-07-13 16:58:15 · 173 阅读 · 1 评论 -
爬虫效率提升方法
协程:在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象任务对象:任务对象=高级的协程对象(进一步封装)=特殊的函数,任务对象必须要注册到时间循环对象中,给任务对象绑定回调:爬虫的数据解析中事件循环:当做是一个装载任务对象的容器,当启动事件循环对象的时候,存储在内的任务对象会异步执行先起个flask服务from flask import Flaskimport timeapp = Flask(__name__)@app.route('原创 2022-04-21 15:25:39 · 788 阅读 · 0 评论 -
几行代码教你爬取LOL皮肤图片
环境win10+ython3.8import requestsimport reimport jsonbase_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big'url = 'https://lol.qq.com/biz/hero/champion.js'respon = requests.get(url=url).textdata = re.search(r'"ID":(.*?),"NAME":',respon).group(原创 2021-12-04 13:03:58 · 311 阅读 · 0 评论 -
基于QQwebAPI 查询昵称和头像的爬虫
API详解见QQWEB文档。环境python3.8+winimport requestsimport refrom PIL import Imagefrom io import BytesIOdef getQQPhoto(qqCode): url ="https://q4.qlogo.cn/g?b=qq&nk={}&s=100".format(qqCode) headers = { 'Referer': 'http://pic.netbian.c原创 2021-11-28 17:37:20 · 790 阅读 · 0 评论 -
解决python +Selenium无法获取window.showModalDialog()弹窗对象问题
节假日买个车票是真艹蛋,构思着写个脚本抢票。遇到Selenium无法获取window.showModalDialog()弹窗对象问题。听起来比较可信的说法是:Selenium目前没有提供对IE模态对话框(即通过showModalDialog方法打开的弹出对话框)的处理。原因在于,模态对话框会将父页面的JS挂起,直至对话框处理完毕才会继续执行父页面JS。因为Selenium的底层实现是基于JS的,所以模态对话框会同时将selenium挂起,selenium无法选中模态对话框,直至超时。解决:selen原创 2021-09-13 21:21:14 · 1378 阅读 · 0 评论 -
selenium+webdriver+chrome实现百度以图搜图
1. 环境搭建1).webdriver+chrome的版本需匹配。2).打开chrome 输入 “chrome://version/”来查看chrome版本访问此网站 谷歌浏览器驱动 然后选择合适版本webdriver2.收集原始图片和构建图床1).将图片做成可以被百度访问的url(第一次搭建在公司服务器上网页能访问但以图搜图访问不到,此处黑人问号,不知为啥。。。)推荐上传到github上,将github作为一个临时的图床使用。参考链接3.完整代码和参数说明1).请求头spider_seti原创 2021-03-04 12:16:38 · 711 阅读 · 1 评论 -
爬取彩票数据
import requestsimport jsonimport csvfrom user_agents import UAdef post_request(url,data): HEADER = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep原创 2020-08-23 11:34:24 · 1271 阅读 · 0 评论 -
pyppeteer爬虫
import asyncioimport pyppeteerfrom user_agents import UAfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers history status")async def get_html(url, timeout=30): browser = await pyppeteer.launch(headless=Tr原创 2020-08-14 09:53:48 · 256 阅读 · 0 评论 -
爬西瓜视频url
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomfrom zlib import crc32from base64 import b64decodeUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CL原创 2020-06-13 20:07:14 · 662 阅读 · 0 评论 -
爬取手游网站游戏详情和评论(MQ+多线程)
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomimport jsonimport threadingfrom queue import Queueimport timefrom lxml import etree#生产者USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1原创 2020-06-13 11:22:15 · 312 阅读 · 0 评论 -
多线程爬取马可波罗网供应商数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomfrom queue import Queueimport threadingimport requestsfrom usere_agent import UAfrom lxml import etreeHEADER = { 'User-Agent': UA, 'Accept': 'text/html,appl原创 2020-05-25 19:45:44 · 208 阅读 · 0 评论 -
爬取小米有品app商品数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport csvimport requestsfrom lxml import etreeimport reimport randomimport jsonfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib原创 2020-05-24 19:18:18 · 957 阅读 · 0 评论 -
爬取汽车之家北京地区汽车详细数据
本文旨在交流学习,勿作他用,否则后果自负环境 win+pycharm+anacondaimport reimport csvimport requestsfrom lxml import etreefrom user_agent import UAhead = { 'User-Agent': UA, 'X-Requested-With': 'XMLHttpRequest', 'Referer': '*/*', 'Accept-Language': 'zh-CN,原创 2020-05-22 18:22:49 · 306 阅读 · 0 评论 -
爬取蝉妈妈数据平台商品数据
本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport requestsfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)he原创 2020-05-21 22:07:22 · 6229 阅读 · 1 评论 -
大批量按关键词爬取搜狗图片
本文旨在交流学习,勿作他用,否则后果自负import requestsimport jsonimport csvimport randomimport urllibimport osUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatibl原创 2020-05-17 17:38:25 · 390 阅读 · 0 评论 -
爬取百度地图店家信息
本文旨在交流学习,勿作他用,否则后果自负import jsonimport csvimport randomimport requestsimport pandas as pdUSER_AGENTS = [ "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; z原创 2020-05-17 17:32:22 · 2046 阅读 · 2 评论