![](https://img-blog.csdnimg.cn/20201119224332906.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
爬虫
努力敲代码的松芽
加油!
展开
-
Downloader Middleware的用法——实现随机User-Agent
Downloader Middleware 即下载中间件,它是处于 Scrapy 的 Request 和 Response 之间的处理模块。Scheduler(调度器) 从队列中拿出一个 Request (请求)发送给 Downloader(下载器) 执行下载,这个过程会经过 Downloader Middleware(下载器中间件) 的处理。另外,当 Downloader(下载器) 将 Req...原创 2019-12-24 16:21:20 · 604 阅读 · 0 评论 -
scrapy方法总结
spiders文件夹的.py爬虫文件方法或参数名用法name每个项目唯一的名字,用来区分不同的 Spiderallowed_domains是允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉start_urls包含了 Spider 在启动时爬取的 url 列表,初始请求是由它来定义的parseSpider 的一个方法。默认...原创 2019-12-23 21:12:00 · 239 阅读 · 0 评论 -
Scrapy入门项目
项目目标创建一个 Scrapy 项目。创建一个 Spider 来抓取站点和处理数据。通过命令行将抓取的内容导出。将抓取的内容保存到 MongoDB 数据库。开发工具Scrapy 框架MongoDBPyMongo 库创建项目创建一个 Scrapy 项目,项目文件可以直接用 scrapy 命令生成,命令如下所示:scrapy startproject tutorial...原创 2019-12-23 21:01:31 · 346 阅读 · 0 评论 -
Scrapy框架介绍
架构介绍五个组件Scrapy Engine(Scrapy引擎)Scheduler(调度器)Downloader(下载器)Spiders(蜘蛛)Item Pipeline(项目管道)五大组件及其中间件的功能如下:Scrapy引擎:控制整个系统的数据处理流程,触发事务处理流程,负责串联各个模块Scheduler(调度器):维护待爬取的URL队列,当接受引擎发送的请求时,...原创 2019-12-23 15:44:44 · 371 阅读 · 0 评论 -
安装scrapy
安装scrapy创建新的虚拟环境激活安装使用清华镜像源进行更新pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy安装成功后验证原创 2019-12-18 22:36:05 · 252 阅读 · 0 评论 -
爬取doc文件后文件中出现文字重叠
问题:用爬虫批量下载doc文件,打开后发现文字重叠。如图: 解决方法: 一般字体重叠的情况是由于字体的不匹配造成的,更改为“中文字体”和“西文字体”,就可以解决问题,并保留原文格式。ctrl+A全选文字,右键点击选择“字体”,进行修改。修改后:原创 2018-01-22 10:03:30 · 824 阅读 · 1 评论 -
Python爬虫下载PDF文件
requests库def get_file_content(date,files): time = date[0:4] + date[5:7] file_name = files[0][1] suburl = homepage + time + r'/' + files[0][0] # 拼接出正确的URL r = requests.get(subur原创 2018-01-22 10:24:07 · 23576 阅读 · 1 评论 -
Python爬取B站弹幕代码分析
re是正则模块re.findall 的简单用法(返回string中所有与pattern相匹配的全部字串,返回形式为数组) 语法:findall(pattern, string, flags=0)出现以下报错 bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: x原创 2018-01-15 23:38:46 · 1941 阅读 · 0 评论