![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
Doris_H_n_q
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫遇坑爬坑记录
①scrapy新建项目:scrapy startproject xxx(项目名)②cd至项目目录下输入命令:scrapy genspider mytianya(爬虫名) "bbs.tianya.cn"(域名)③新获取页面body查看结构:在def parse(self,response)方法下下添加:html_bd=response.body.decode('gbk') ...原创 2018-08-12 10:05:56 · 679 阅读 · 0 评论 -
scrapy笔记【4】[ CrawlSpider类介绍]
9、CrawlSpiders通过下面的命令可以快速创建 CrawlSpider模板 的代码:scrapy genspider -t crawl tencent tencent.com上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样...class scrapy.spiders.CrawlSpider它是Spider的派生类,...原创 2018-09-14 10:47:57 · 174 阅读 · 0 评论 -
scrapy笔记【3】[举栗子]
————举栗子:案例:腾讯招聘网自动翻页采集————创建一个新的爬虫:#scrapy startproject xxx(项目名)scrapy startproject tcent#scrapy genspider mytianya(爬虫名) "bbs.tianya.cn"(域名)scrapy genspider tencent "tencent.com"编写items.py获取...原创 2018-09-14 10:40:56 · 170 阅读 · 0 评论 -
scrapy笔记【2】[Spider类介绍]
7、Spider① Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。② class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。③ 主要用到的函数及调用顺序为:* __init__(...原创 2018-09-14 10:34:48 · 339 阅读 · 0 评论 -
scrapy笔记【1】[原理/安装/初始步骤/各组件]
一、简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口...原创 2018-09-14 10:12:47 · 328 阅读 · 0 评论 -
scrapy的阿里云部署笔记
————阿里云部署scrapyd————首先python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。其次安装pip,在命令行中执行以下命令:sudo apt-get install python-pip安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:sudo apt-get install python-dev sudo apt-get i...原创 2018-08-24 16:58:44 · 948 阅读 · 0 评论 -
scrapy爬虫中使用selenium配置charmedriver.exe环境变量
①修改中间件.py②配置环境变量:原创 2018-08-13 11:46:07 · 395 阅读 · 0 评论 -
scrapy笔记【5】[自动翻页栗子/robots/logging/DOWNLOAD_DELAY]
10、rules在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。class scrapy.spiders.Rule( link_extractor, callback = None, cb_kwargs = None...原创 2018-09-14 10:48:44 · 644 阅读 · 0 评论