直接用requests、Selenium等库写爬虫,如果爬取量不是太大,速度要求不高,是完全可以满足需求的。但是写多了就会发现其内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,久而久之,爬虫框架就诞生了。
一、pyspider的安装
pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJS。
安装
pip3 install pyspider
验证安装
安装完成之后,可以直接在命令行下启动pyspider:
pyspider all
这是pyspider的Web服务就会在本地5000端口运行。直接在浏览器中打开http://localhost:5000/ ,即可进入pyspider的WebUI管理页面,证明pyspider已经安装成功。
二、Scrapy的安装
使用Anaconda安装:
conda install Scrapy
使用Anaconda Prompt安装的方法是最简单的。
验证安装
安装之后,在命令行输入scrapy,出现下图内容,证明安装成功。