![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
tjial
这个作者很懒,什么都没留下…
展开
-
在windows下安装scrapy
windows下的安装方法pip install scrapy错误解决方法Twisted安装错误:直接去下载编译好的包安装,去下载,找对应你的python版本就好了(安装的时候我只遇到了这一个问题。。。)运行的时候出现的错误:无法导入win32api包:下载相应版本的pywin32包进行安装。如果没有你对应版本的,就需要你更换python的版本了,建议不要用最新版本的python。...原创 2019-08-09 11:09:24 · 677 阅读 · 0 评论 -
Scrapy学习笔记--settings
settins中的一些配置 # 你的爬虫项目的名字 BOT_NAME # 搜索你编写的spider的目录,为一个列表 SPIDER_MODULES # 新建的spider的目录 NEWSPIDER_MODULE # 是否遵循网站的robots.txt来爬取数据 ROBOTSETXT_OBEY # 设置请求的标识 USER_AGENT # 配置scrapy执行的最大并发请求,默...原创 2019-08-11 19:20:06 · 727 阅读 · 0 评论 -
如何构建自己的IP代理池
在学习爬虫的过程中,肯定遇到过被封IP的问题,这个时候我们就需要去用代理来帮我们完成爬取任务,然而,爬着爬着又被封了,好,再换一个代理,一会过后又封了。这种情况有两种方法来解决方法一:对我们的爬虫进行限速,使爬取速度接近人工访问的速度方法二:使用代理池在这里只说明一下代理池,我们可以使用西刺的免费代理,将其爬取下来存在数据库中,这样只需要在每次爬取的时候从数据库中取一个IP就可以了下面是从...原创 2019-08-24 18:47:17 · 1382 阅读 · 0 评论 -
在通过selenium登陆知乎的时候提示请求信息异常
参考文章:https://www.v2ex.com/amp/t/534322今天在学习selenium的时候尝试了一下登陆知乎,本来我觉着我这不就是通过浏览器进行登陆的,肯定没有问题,然而,打脸来的太快了,提示了求情信息异常,好吧,我很菜,在通过百度过后解决了问题(菜鸡一枚,不会就百度)首先我们先来想一下,使用selenium操作浏览器与人工操作浏览器有什么不同(小声嘀咕,能有啥不同),简单的...原创 2019-08-25 19:29:13 · 4086 阅读 · 4 评论