简要流程:
•startproject:创建一个新项目:
•genspider:根据模板生成一个新爬虫:
•crawl:执行爬虫:
•shell:启动交互式抓取控制台。
一.启动项目:
- $scrapy startproject example(项目名)
- $cd example(项目名)
生成文件结构后
• items .py: 该文件定义了待抓取域的模型。
• settings . py: 该文件定义了一些设置, 如用户代理、爬取延时等。
• spiders/: 该目录存储实际的爬虫代码。
二.定义模型(定义抓取数据域):
# -*- coding: utf-8 -*-
import scrapy
class ExampleItem(scrapy.Item):
name = scrapy.Field()
population = scrapy.Field()
三.创建爬虫:
CMD输入以下命令:
$ scrapy genspider country example.webscraping.com --template=crawl
自动在spider文件夹下生成爬虫模板
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractor