1. Scrapy install
准备知识
- pip 包管理
- Python 安装
- Xpath
- Css
Windows安装 Scrapy
$>- pip install scrapy
Linux安装 Scrapy
$>- apt-get install python-scrapy
2. Scrapy 项目创建
在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令:
$>- scrapy startproject mySpider
其中, mySpider 为项目名称,可以看到将会创建一个 mySpider 文件夹,使用命令查看目录结构
3. Scrapy 自定义爬虫类
通过Scrapy的Spider基础模版顺便建立一个基础的爬虫。(也可以不用Scrapy命令建立基础爬虫,)
$>- scrapy genspider gzrbSpider dayoo.com
scrapy genspider是一个命令,也是scrapy最常用的几个命令之一。至此,一个最基本的爬虫项目已经建立完毕了.
文件描述:
序列 | 文件名 | 描述 |
---|---|---|
1 | scrapy.cfg | 是整个Scrapy项目的配置文件 |
2 | settings.py | 是上层目录中scrapy.cfg定义的设置文件(决定由谁去处理爬取的内容) |
3 | init.pyc | 是__init__.py的字节码文件 |
4 | init.py | 作用就是将它的上级目录变成了一个模块 ,否则,文件夹没有__init__.py不能作为模块导入 |
5 | items.py | 是定义爬虫最终需要哪些项 (决定爬取哪些项目) |
5 | pipelines.py | Scrapy爬虫爬取了网页中的内容后,这些内容怎么处理就取决于 |