Scrapy入门使用
1. 安装Scrapy
pip install scrapy
2. 创建项目及爬虫
创建项目:scrapy startproject 项目名称
切换目录:cd 项目名称
创建爬虫:scrapy genspider <爬虫名字> <允许爬取的域名>
3. 完善爬虫
(1)在/myspider/myspider/spiders/itcast.py
中修改内容如下:
- 修改起始url
start_urls
- 检查允许的域名
allowed_domains
- 在parse()方法中实现爬取逻辑,parse()中使用
yield
返回数据,能够传递的对象只能是BaseItem、Request、dict、None
(2)解析数据:
response.xpath
方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样。extract()
返回一个包含有字符串的列表extract_first()
返回列表中的第一个字符串,列表为空没有返回None
4. 使用管道(pipelines.py
)
- 定义一个管道类
- 重写管道类的
process_item()
方法,方法名固定,爬虫文件中提取数据的方法每yield一次item,就会运行一次 process_item
方法处理完item之后必须返回给引擎
5. 在settings.py
中配置启用管道
ITEM_PIPELINES = {
'项目目录名.文件.管道类': 300
}
配置项中值为管道的使用顺序,设置的数值越小优先级越高,一般不超过1000
6. 运行Scrapy
scrapy crawl <爬虫名>