pipeline python_python爬虫的最佳实践(九)--Scrapy的items和pipeline

不想当将军的士兵不是好士兵,同理,不想当主程的程序员不是好程序员~

上一节我们讲了Scrapy的初步用法,我们已经学会了如何创建scrapy工程,如何编写简单的爬虫。

本节目标

学会Scrapy item的创建及使用

使用Scrapy将抓取到的数据存入json

使用Scrapy Pipeline做数据处理

学会暂停工程与重新开始工程

代码预览

items.py

class TutorialItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

pass

class xianyuItem(scrapy.Item):

title = scrapy.Field()

url = scrapy.Field()

pass

pipelines.py

import pymongo

class TutorialPipeline(object):

def open_spider(self, spider):

self.client = pymongo.MongoClient('localhost', 27017)

self.test = self.client['test']

self.testData = self.test['testData']

pass

def process_item(self, item, spider):

data = {

'title': item['title'],

'url': item['url']

}

self.testData.insert_one(data)

return item

def close_spider(self, spider):

pass

spider.py

#coding:utf-8

import scrapy

from bs4 import BeautifulSoup

from ..items import xianyuItem

class testSpider(scrapy.Spider):

name = 'test'

start_urls = ['http://tj.ganji.com/fang1/']

def parse(self, response):

print 'lalala'

for title in response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "js-title", " " ))]'):

url = title.xpath('@href').extract()[0]

if url.find('http')==-1:

url = 'http://tj.ganji.com'+url

yield scrapy.Request(url, self.detail)

def detail(self, response):

data = BeautifulSoup(response.body, 'lxml')

title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')

item = xianyuItem()

item['title'] = title[0].get_text()

item['url'] = response.url

return item

settings.py

ITEM_PIPELINES = {

'tutorial.pipelines.TutorialPipeline': 300,

}

代码剖析

今天的代码由三部分主体构成,首先来看items.py

class xianyuItem(scrapy.Item):

title = scrapy.Field()

url = scrapy.Field()

pass

其实很好理解力,定义一个我们自己的item结构,里面有两个field,一个是title用来存储抓来的标题,一个是url用来存储抓来的url,我们直接跳到使用部分。

看spider.py,首先:

from ..items import xianyuItem

这里需要注意的是,因为items.py和我们的spider.py并不在同级目录,如果要import需要在前面加上..表示上级目录,当然也可以这样

from tutorial.items import xianyuItem

但是这样会在pycharm里面报错,我个人不喜欢看到红字~推荐用上面的方式。我们来看detail函数:

def detail(self, response):

data = BeautifulSoup(response.body, 'lxml')

title = data.select('div.content.clearfix > div.leftBox > div.col-cont.title-box > h1')

item = xianyuItem()

item['title'] = title[0].get_text()

item['url'] = response.url

return item

我们先创建一个xianyuItem对象,然后给里面每个field赋值,最后return这个对象。这样,item就会被pipeline抓到。接下来我们用命令把抓来的数据导入到json文件中。进入tutorial项目跟目录,执行

scrapy crawl test -o test.json -t json

-o表示文件写入目录 -t 表示格式,执行完后打开test.json结果如图:

e71ff6173302

1.png

这样就可以把数据存入json中,接下来我们看看pipelines.py

def open_spider(self, spider):

def process_item(self, item, spider):

def close_spider(self, spider):

三个函数,第一个open_spider在spider开始的时候执行,在这个函数中我们一般会连接数据库,为数据存储做准备,上面代码中我连接了mongo数据库。process_item函数在捕捉到item的时候执行,一般我们会在这里做数据过滤并且把数据存入数据库。close_spider在spider结束的时候执行,一般用来断开数据库连接或者做数据收尾工作。

写好pipeline之后我们需要到settings.py中开启pipeline:

ITEM_PIPELINES = {

'tutorial.pipelines.TutorialPipeline': 300,

}

找到ITEM_PIPELINES 选项,把我们pipeline的路径配置进去,后面的数字表示的是pipeline的执行顺序,我们可以写多个pipeline用来过滤数据。执行结果如下:

e71ff6173302

I)VX)ETO86N08}8USYSG8VW.png

至此,我们本次代码解析完毕。你们应该已经会使用item和pipeline了吧。如果还有困惑可以去看官方文档~

小技巧

当我们一个爬虫项目量非常大时候,我们可能不能一次执行完毕,需要分好几次执行,这时候,我们只需要在启动爬虫的时候键入命令

scrapy crawl xxx -s JOBDIR=job1

这时候我们可以看到任务开始执行了,当我们想要暂停的时候按下ctrl+c。当我们想要恢复的时候键入:

scrapy crawl xxx -s JOBDIR=job1

这样就可以继续执行了~~

这样,我们今天所有的目标都达成了,鼓掌~~

写在最后

这一章我们学习了一些进阶技巧,那么下一章我们还是Scrapy,下一章我们会讲如何使用CrawlSpider做多网页扒取,同时也会讲一些小技巧,比如,如何动态更改User-Agent进行反扒,如何设置扒取间隔等等~

有兴趣的同学可以加群498945822一起交流学习哦~~

发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值