scrapy框架的基本用法
一、安装scrapy框架
- 按下win+r打开命令行输入cmd之后输入pip install scrapy,之后还需安装一个模块否者会影响scrapy的正常使用。
- 安装pywin32模块pip install pywin32 如果出现报错可在百度上寻找镜像网站。
二、创建scrapy项目
- 在pycharm的终端(terminal)中输入以下命令:
scrapy startproject myspider
-
之后依次输入:
cd myspider scrapy genspider example example.com
注:cd是切盘的意思,myspider是自己项目的名字,example是网站名字,example.com是在网址后面跟上的域名。
三、创建出来的程序的作用
- **items.py:**定义了用于存储爬取数据的数据模型,即Item类。每个Item类对应爬取的一种数据结构。(定义了爬取数据的模样)
2.middlewares.py:
- 类似于请求和响应的加工厂,可以在发送请求前或处理响应后进行一些处理,比如修改请求头或代理。
3.init.py:
- 一个空文件,用于将包目录标识为Python包。
4.pipelines.py:
- 就像一个处理流水线,用于接收爬虫爬取到的数据,并执行保存或处理的操作,比如存储到数据库。
5.scrapy.cfg:
- 项目的配置文件,包含Scrapy项目的配置信息,如项目名称、模块路径等。
6.spiders/目录:
-
包含一个或多个爬虫的Python文件。每个爬虫文件定义了如何爬取特定网站的规则和逻辑。
7.settings.py:
-
包含项目的设置信息,如爬虫速度、并发数、User-Agent等配置。
四、执行scrapy框架
-
可在pycharm的终端(terminal)中运行
-
也可在创建一个py文件用这个程序作为启动程序,在其中输入以下代码即可
from scrapy import cmdline cmdline.execute(['scrapy','crawl','lianjia','--nolog'])
注:如有错误之处请各位大佬不吝赐教