爬虫scrapy框架
scrapy流程图
开始一个scrapy项目
首先进入你想要使用的虚拟环境,键入
pip install scrapy
下载完成后再虚拟环境中键入
scrapy startproject 项目名称
即可以在当前所在路径创建一个scrapy项目
创建一个爬虫文件
首先进入我们的scrapy项目
cd 项目名
这里我选择直接用命令行生成爬虫文件
scrapy genspider 爬虫名 爬虫网页路径
现在我们新建了了一个爬虫文件
测试这个爬虫能不能爬到数据
同样的,我们可以用scrapy框架测试我们的项目
scrapy shell 爬虫网页路径
建立链接后键入
response.text
这里证明我们的链接可以获取到网页数据了
修改parse方法
现在我们回到pycharm中,看一下我们创建到的项目结构
版本原因可能有些scrapy版本不会自动创建middlewares,然后如果是python2.7的别忘记加utf-8编码格式
现在需要在项目中指定一下虚拟环境,这个和django差不多