scrapy的name变量_scrapy 跨组件传递参数

最新推荐文章于 2021-02-11 09:17:29 发布

weixin_39842029

最新推荐文章于 2021-02-11 09:17:29 发布

阅读量56

点赞数

文章标签： scrapy的name变量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39842029/article/details/111765083

版权

引用 @玉帛的方法，可以解决问题，实现“从MongoDB读取start_url，对start_url进行处理，生成特征值，再将特征值传递给pipeline作为collection表名”的操作，具体解决方案如下。

Spider中：

def start_requests(self):

client = pymongo.MongoClient('localhost',27017)

db_name = 'Sina'

db = client[db_name]

collection_set01 = db['UrlsQueue']

datas=list(collection_set01.find({},{'_id':0,'url':1,'status':1}))

for data in datas:

if data.get('status') == 'pending':

url=data.get('url')

pattern='(?<=/)([0-9a-zA-Z]{9})(?=\?)'

if re.search(pattern,url):

collection_name=re.search(pattern,url).group(0)

start_url='https://weibo.cn/comment/'+collection_name+'?ckAll=1'

collection_set01.update({'url':url},{'$set':{'status':'proccessing'}})

break

else:

pass

client.close()

yield Request(url=start_url,callback=self.parse, cookies=cookie, meta={'collection_name':collection_name})

从数据库中获取start_url，提取特征值，并对其处理，带meta参数发送request

def parse(self,response):

collection_name=response.meta['collection_name']

......

for i in range(0,len(node)):

item['collection_name']=collection_name

yield item

parse()从response中解析数据的同时提取回传的meta参数

Pipeline中：

def close_spider(self, spider):

self.db['UrlsQueue'].update({'status':'proccessing'},{'$set':{'status':'finished'}})

self.client.close()

def process_item(self, item, spider):

self.collection_name=item.pop('collection_name')

self.db[self.collection_name].insert_one(dict(item))

return item

pop掉collection_name参数即可

非常感谢 @玉帛的帮助

weixin_39842029

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy的name变量_scrapy 跨组件传递参数

引用 @玉帛的方法，可以解决问题，实现“从MongoDB读取start_url，对start_url进行处理，生成特征值，再将特征值传递给pipeline作为collection表名”的操作，具体解决方案如下。Spider中：def start_requests(self):client = pymongo.MongoClient('localhost',27017)db_name = 'Sin...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。