scrapy爬虫pipline 代码,储存为MongoDB

item转为字典存入mongodb        

只需要在setting中给出MongoDB的url和库名就可以用

 

 

class WeibMongoPipline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE'),
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        if isinstance(item, WeiboItem):
            self._process_use_item(item)
        elif isinstance(item, WeiboContentItem):
            self._process_cont_item(item)
        return item

    def _process_use_item(self, item):
        # 以id去重插入   db后面的是你自己的集合名   
        self.db.user.update({'id': item['id']}, {'$set': dict(item)}, True)
        print(u'微博用户插入成功')

    def _process_cont_item(self, item):
        self.db.content.update({'cont_id': item['cont_id']}, {'$set': dict(item)}, True)
        print(u'微博内容插入成功')

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值