![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
yunblog
这个作者很懒,什么都没留下…
展开
-
将scrapy爬虫改写为分布式爬虫redis-scrapy
1,进入settings.py # 以下是加入的内容 # 1.(必须加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重组件,在redis数据库里做去重。 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 2.(必须加)。使用了scrapy_redis的调度器,在redis里面分配请求。...原创 2019-09-07 17:48:10 · 168 阅读 · 0 评论 -
scrapy设置user_agent及代理ip
在 middlewares.py 中添加如下代码,即可添加user_agent及代理ip // middlewares.py class UserAgentMiddleware(object): USER_AGENTS = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko...原创 2019-09-09 17:56:59 · 190 阅读 · 0 评论 -
scrapy将爬取到的数据存储到mysql中,使用pymysql
在 pipelines.py中添加如下代码 import pymysql class JianshuPipeline(object): def __init__(self): dbparams = { 'host':'127.0.0.1', 'port':3306, 'user':'root', ...原创 2019-09-09 18:12:55 · 456 阅读 · 0 评论