一. 安装scrapy
1. 参照链接 https://www.cnblogs.com/chunfenggangwan/p/13226200.html
直接安装失败,手动下载whl包安装
2、创建一个scrapy项目
新创建一个目录,按住shift-右键-在此处打开命令窗口
输入:scrapy startproject tutorial即可创建一个tutorial文件夹
文件夹目录如下:
|-tutorial
|-scrapy.cfg
|-__init__.py
|-items.py
|-middlewares.py
|-pipelines.py
|-settings.py
|-spiders
|-__init__.py
文件的功能:
scrapy.cfg:配置文件
spiders:存放你Spider文件,也就是你爬取的py文件
items.py:相当于一个容器,和字典较像
middlewares.py:定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py:定义Item Pipeline的实现,实现数据的清洗,储存,验证。
settings.py:全局配置
3、创建一个spider(自己定义的爬虫文件)
例如以爬取猫眼热映口碑榜为例子来了解一下:
在spiders文件夹下创建一个maoyan.py文件,你也可以按住shift-右键-在此处打开命令窗口,输入:scrapy genspider 文件名 要爬取的网址。