Scrapy框架流程

Scrapy流程

Scrapy的主体流程

1.新建项目 scrapy startproject xxx(项目名)
2.编写item 书写爬虫要提取的内容框架
3.制作爬虫 spider/xxspider.py中负责分解提取下载数据
4.pipline:内容的储存

Scrapy详细流程操作

新建项目

命令行下输入

scrapy startproject Spider#创建一个名为Spider的项目

书写爬取目标

打开item.py,开始写提取目标

import scrapy
class SpiderItem(scrapy.Item):
url=scrapy.Field()#提取链接
title=scrapy.Field()#提取标题
content=scrapy.Field()#提取内容

制作爬虫

命令行下输入

scrapy genspider carspider"xxx.com"#创建一个carspider文件

打开carspider.py文件,类carspider中已经有了一些填好的信息。
接下来,我们需要:

from Spider.items import SpiderItem

然后,在parse中填写提取规则

def parse(self,response):
	item=SpiderItem()
	item['url']=response.xpath('//base/@href').get()#采集网址
	item['title']=response.css('title::text').get()#采集标题
	item['content']=response.css('strong::text').getall()#采集内容信息	

执行程序

scrapy crawl Spider#执行项目名为spider的爬虫程序
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值