![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
GaryLea
这个作者很懒,什么都没留下…
展开
-
记录pyppeteer使用过程中遇到的BUG
首先是耳熟能详的介绍: Puppeteer 是 Google 基于 Node.js 开发的一个工具,主要是用来操纵 Chrome 浏览器的 API,通过 Javascript 代码来操纵 Chrome 浏览器的一些操作,用作网络爬虫完成数据爬取、Web 程序自动测试等任务。其 API 极其完善,功能非常强大。 而 Pyppeteer 又是什么呢?它实际上是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开...原创 2020-09-10 11:31:17 · 362 阅读 · 1 评论 -
记录一次scrapy的crawlspider 详情页自动路径拼接问题
我在运行scrapy crawlspider的时候,发现首页200请求成功,但是详情页返回404,于是,进入网站,查看详情页链接是什么样子这是列表页直接鼠标右键,新页面打开,发现网页正常,链接如下:这下知道原因了,是crawlspider的路径拼接有问题,正常打开的链接是https://www.xxx.com/xwzx/dzyw/202005/t2020058.html而crawlspider 它自己拼接的链接是https://www.xxx.com/202005/...原创 2020-05-12 17:21:01 · 577 阅读 · 0 评论 -
PHP执行python程序的方法(PHP与scrapy进行交互)
首先看PHP代码system('PATH\python.exe PATH\xxx.py ' (PARAMS));一般我们执行python文件的方法是 python xxx.py, 那么,对于PHP来执行的话,同样是python xxx.py但是PHP不知道我们python在哪,所以需要加绝对路径PATH, xxx.py也同样需要绝对路径 这里的命令解读为: system('py...原创 2018-11-10 08:47:10 · 1794 阅读 · 0 评论 -
scrapy 遇到乱码怎么办?一招解决
XX交通委提醒您注意爬虫安全,网站千万条,安全第一条,编码不规范,亲人两行泪在使用scrapy数据抓取过程中,经常会遇到这种情况(58这类自己专门设置了字符集反爬措施)除外# 解决思路download minddlewares中有个process_response方法,修改它即可因为 response.body 是一个 str 因此,我们需要自己组装一个response,利用...原创 2019-03-05 15:48:20 · 1635 阅读 · 2 评论