- 安装支持pip3
首先需要安装支持Python3的pip管理工具,如果是Python2.x可以直接使用如下命令:
sudo apt-get install pip
这样安装的是pip2不支持Python3.x,可以使用如下命令安装pip3
sudo apt-get install python3-pip
可以使用如下命令查看pip3是否安装成功
pip3 --version
- 安装scrapy
scrapy是一个快速高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、检测和自动化测试。
该扩展库具有如下优点:整个爬取过程简单。创建一个类,并定义要删除的项目类型,编写一些从网页中提取数据的规则,结果将以JSON、XML、CSV或其他的格式导出,搜集的数据可以保存在raw,也可以在导入时进行清理。此外scrapy可以扩展允许其他行为例如网站登录处理、会话cookie处理。图像也可被s