Scrapy
文章平均质量分 82
s_daqing
这个作者很懒,什么都没留下…
展开
-
scrapy中使用Splash
scrapy爬虫框架没有提供页面js渲染服务,所以我们获取不到信息,我们可以使用selenium或者scrapy-splash,Selenium极大地方便了动态页面的数据提取,但是它需要操作浏览器,无法实现异步和大规模页面的爬取需求。Splash就可以解决上述问题1、Splash渲染引擎简介:Splash是为Scrapy爬虫框架提供渲染javascript代码的引擎,它有如下功能:(摘自维基百科)(1)为用户返回渲染好的html页面(2)并发渲染多个页面(3)关闭图片加载,加速渲染(4)执行原创 2021-05-19 23:24:05 · 624 阅读 · 0 评论 -
02-scrapy项目的创建基本使用
1、创建Scrapy项目首先安scrapy命令:sudo apt-get install scrapy 或者:pip install scrapy创建scrapy项目的命令:scrapy startproject +<项目名字>示例:scrapy startproject myspider生成的目录和文件结果如下:2、创建爬虫命令:在项目路径下执行:scrapy genspider +<爬虫名字> + <允许爬取的域名>示例(以腾讯招聘网站为例):原创 2021-04-03 14:15:14 · 4028 阅读 · 0 评论 -
01-scrapy的概念和流程
1、什么是scrapy?文档地址:https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.htmlScrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。2、异步和非阻塞的区别前面我们说Twisted是一个异步的网络框架,经常我们也听到一个词语叫做非阻塞,那么他们有什么区别呢?异步:调用原创 2021-04-02 21:58:52 · 157 阅读 · 0 评论