![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
--Jerry--
这个作者很懒,什么都没留下…
展开
-
使用协程方式爬取小红书 热门页 下的数据
from gevent import monkey# 猴子补丁monkey.patch_all()from gevent.pool import Poolfrom queue import Queueimport requestsimport jsonfrom lxml import etreeclass RedBookSpider(): """小红书爬虫""" ...原创 2019-11-04 14:13:36 · 989 阅读 · 0 评论 -
Scrapy中间件
Scrapy中间件分类* 爬虫中间件 引擎和爬虫组件交互时触发中间件* 下载中间件 引擎和下载器交互时出发中间件实现中间件的流程在 middlewares.py 创建中间件类实现所需要拦截的函数在 settings.py 中配置开启中间件在配置中数字越小越优先执行下载中间件模版class DownloadMiddleware(object): """下载中...原创 2019-11-01 16:15:12 · 191 阅读 · 0 评论 -
爬取 豆瓣热门页 电影
import requestsimport jsonfrom pprint import pprintimport jsonpathclass DouBanSpider(): """豆瓣热门页电影 爬虫""" def __init__(self): """初始化操作""" self.url = 'https://movie.douba...原创 2019-11-01 16:12:14 · 338 阅读 · 0 评论