爬虫
包含python相关的和nodejs相关的,后面可能会加入go
幽默的荆轲君
今天就是生命——是惟一你能确知的生命。
展开
-
如何拿到浏览器请求的所有url
需要先把所有的请求给拿到。例如下面这样然后进入console里面,输入a = 然后粘贴刚才复制的部分,如果不让粘贴,按照浏览器要求的allow pasting 进行粘贴。然后粘贴成功之后,执行b = a.log.entries.map(e=>e.request.url) 就可以拿到所有请求的url了。也可以根据自己的需要做一些url的处理。参考: https://gist.github.com/cvan/03ffa0c71317cb6b0b95a41ab189b097...原创 2022-05-10 21:58:08 · 1246 阅读 · 0 评论 -
requests cookie更新值
自动保存并传递cookie from requests.cookies import RequestsCookieJar jar = RequestsCookieJar() jar.set(cookie['name'], cookie['value'])完成之后就可以在直接在请求网页源文件的时候,将这个cookie带上一起发送请求了requests只能保持 cookiejar 类型的cookie,而我们手动构建的cookie是dict类型的。所以要把dict转为 cookiejar类型,方法如下转载 2021-04-14 17:52:46 · 1480 阅读 · 2 评论 -
page.evaluate Vs. Puppeteer $ methods
之前一直在用puppeteer, 一直没有研究evaluate和$eval的区别,我使用的感觉是$eval和$$eval更好用一点,代码比较清楚。因为有时候传递参数,函数的时候还是挺麻烦的,而且报错什么的也不太方便。直到今天看了这篇文章,才发现之前的想法有些问题,应该用evaluate, 除了性能会好之外,而且方便调试,直接粘贴到控制台就可以用。这样的话,其实绑定函数也就不是什么问题了。参考:https://stackoverflow.com/questions/55664420/page-evalua原创 2020-08-28 22:54:16 · 433 阅读 · 0 评论 -
puppeteer 简单使用和一个简单的case
因为接下来要做抓取,可能要用到puppeteer, 就重新有看了一下。需要安装puppeteer. npm install puppeteer --save 会自动下载一个Chromium, 如果不需要可能不用下。puppeteer 超时问题处理js中的for of 类似 python的for in这里的抓取匹配的内容,用的都是chrome里面的selector. 当然,有些还是得你自己写,如何检查?可以chrome里面安装下面的插件css-selector-testerpuppeteer 官原创 2020-06-20 19:07:14 · 305 阅读 · 0 评论 -
爬虫puppeteer 安装及入门
headless-chrome貌似在爬虫方面成了主流,它击败了phantomJS而成功登顶。关于js数据渲染后的数据,我用个selenium, 用过scrapy-splash. 但是还没用过这个,很想尝试一下前端是怎么做的,虽然有pyppeteer的版本,但是我还是决定用puppeteer来做(js版本)centos 部署直接参考github puppeteer 即可,我的方式是# 创建一个...原创 2019-10-15 20:59:29 · 690 阅读 · 0 评论 -
爬虫bug的处理记录
今天早上过来的时候,公司的运营反馈一个问题,有一个彩种一直抓不到数据。目前之剩下这一个源,如果没法抓取就没有其他的源可以弄了。因为有管理后台,登陆之后我就尝试手工配置,我在她配置的基础上做调整,发现确实是空了,然后我开始看日志,发现test的scrapy走的是8032的一个端口,但是docker上就没有这个镜像,那肯定不行,然后就配置了一个镜像,配置之后还是不行。 就开始找代码。这里犯了一个错...原创 2019-07-08 19:31:11 · 368 阅读 · 0 评论 -
chrome上爬虫快速抓取图片组成pdf
好久没写爬虫了,昨天抽空帮亮哥爬了一本书,其实应该是很快的,不过还是花了点时间,这里整理一下,供大家参考。重要知识点:postman获取请求参数postman快速获取python脚本根据python脚本修改代码批量下载图片。图片组成pdf第一步:chrome里面找到对应的ajax请求的链接,这里就不详细说。然后右键copy,copy as curl(bash)。第二步:拿到请求之...原创 2019-04-26 11:43:12 · 611 阅读 · 0 评论 -
HTTP status code is not handled or not allowed的解决方法
/Books/>: HTTP status code is not handled or not allowed2017-11-04 17:21:38 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 http://www.dmoz.org/Computers/Programming/Languages/Python原创 2017-11-04 17:31:55 · 39519 阅读 · 6 评论 -
学习phantomjs(一)(phantomjs关于页面跳转的问题)
此代码目的用于打开浏览器,输入手机商城,跳转第二页,搜索华强北商城的网站,并且进入。import seleniumimport selenium.webdriverimport timenoviewpath=r"C:\Users\Administrator\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe"#phantomjs需要提前下载好,原创 2017-10-30 16:46:12 · 4067 阅读 · 2 评论 -
运行拷贝的scrapy项目遇到的两个问题的解答
错误1 bad magic number in ‘math’: b’\x03\xf3\r\n的解决办法。 1.出现魔法命令错误的问题。 因为我直接拷贝了别人编译过的项目。所以报了这个错误。解决办法删除项目中所有的.pyc文件。错误2 ‘Spider not found: tianya-url(.py)解决办法You should use the spider name原创 2017-09-18 20:04:59 · 2150 阅读 · 0 评论 -
今日头条爬美女图片知识点下
#!/usr/bin/env python# encoding: utf-8"""@version:2.7.13@author: wenjiaGuo@contact: [email protected]@software: PyCharm@file: paGirl1.py@time: 2017/9/7 19:07@用途:抓取今日头条上的任意图片。@使用方法:查找内容: <%s> 抓原创 2017-09-09 14:56:32 · 3116 阅读 · 0 评论 -
今日头条爬美女图片知识点1
#!/usr/bin/env python# encoding: utf-8"""@version:2.7.13@author: wenjiaGuo@contact: [email protected]@software: PyCharm@file: paGirl.py@用途:抓取今日头条上的任意图片。@使用方法:直接执行即可@time: 2017/9/7 17:25"""im原创 2017-09-09 14:55:19 · 2092 阅读 · 0 评论