Scrapy流程
Scrapy的主体流程
1.新建项目 scrapy startproject xxx(项目名)
2.编写item 书写爬虫要提取的内容框架
3.制作爬虫 spider/xxspider.py中负责分解提取下载数据
4.pipline:内容的储存
Scrapy详细流程操作
新建项目
命令行下输入
scrapy startproject Spider#创建一个名为Spider的项目
书写爬取目标
打开item.py,开始写提取目标
import scrapy
class SpiderItem(scrapy.Item):
url=scrapy.Field()#提取链接
title=scrapy.Field()#提取标题
content=scrapy.Field()#提取内容
制作爬虫
命令行下输入
scrapy genspider carspider"xxx.com"#创建一个carspider文件
打开carspider.py文件,类carspider中已经有了一些填好的信息。
接下来,我们需要:
from Spider.items import SpiderItem
然后,在parse中填写提取规则
def parse(self,response):
item=SpiderItem()
item['url']=response.xpath('//base/@href').get()#采集网址
item['title']=response.css('title::text').get()#采集标题
item['content']=response.css('strong::text').getall()#采集内容信息
执行程序
scrapy crawl Spider#执行项目名为spider的爬虫程序