在python中爬取数据是最重要的部分,对于规模小、爬取数据量小、对爬取速度不敏感的爬虫程序,使用Requests能轻松搞
定。这些爬虫程序主要功能是爬取网页、玩转网页。如果我们需要爬取网站以及系列网站,要求爬虫具备爬取失败能复盘、爬取速
度较高等特点。很显然Request不能完全满足我们的需求。因此,需要一功能更加强大的第三方爬虫框架库 —— Scrapy。Scrapy
集python中各大功能库集于一身,掌握用好scrapy使我们每个程序员必备的。
一、scrapy的安装
(1)在终端下输入以下内容:
(2)但是由于会出现问题,因此我们要下一个Twisted异步网络库来处理网络通讯,在anacoda的终端下下载,如图:
(3)安装成功后,在终端下输入python,查看是否成功,如出现以下提示及成功:
(4)安装成功后,我就可以在pycharm中创建一个新的spider项目,创建成功的标志在终端如下图所示:
二、scrapy在pycharm中的用法及一些命令操作
1、打开pycharm的页面如下:
2、我们需要在pycharm下新建一个spider 的.py爬虫文件及创建成功后的样式如下图所示:
3、执行爬虫命令如下图所示:
4、解释下上边随着我们命令出现内容的意义及作用,如下图所示:
以上是scrapy框架的简单叙述,后续会陆续补充。