创建一个Scrapy项目,首先需要所需要的模块
一丶安装scrapy框架所有模块
1.第一个安装的依赖库是lxml ,命令是:
pip install lxml
2.第二个依赖库是pyOpenSSL,安装步骤为
进入https://pypi.org/project/pyOpenSSL/#downloads 下载wheel文件;
在命令行窗口执行pip install (需要加上你下载文件的路径名)\pyOpenSSL-18.0.0-py2.py3-none-any.whl
3.第三个依赖库是Twisted库,安装步骤是:
因为电脑安装的是3.9版本的Python,所以直接在setting里加载不出最新的twisted模块,所以在命令提示符窗口里加载
pip install twisted-20.3.0-cp38-cp38-win_amd64.whl
4.此时可以加载scrapy模块
pip install scrapy
一般情况下,直接从3开始,不能从3开始再从1开始
二、创建爬虫项目
1.创建爬虫项目
首先进入命令提示符窗口(按win+R,输入cmd,进入到命令提示符窗口中),然后进入到一个文件夹中(注意必须是英文路径下)
scrapy startproject 项目名
然后进入项目中,创建爬虫
cd 项目名
scrapy genspider 爬虫名称 "域名"
#需要注意的是爬虫名字不能和项目名称一致。
2.运行爬虫文件
在spider文件中,写好项目后,与平常运行项目不同,爬虫项目在下面的terminal中输入
scrapy crawl 爬虫名
spider文件中的类的name就是爬虫名