增量爬虫

增量爬虫

1.什么是增量爬虫

增量爬虫:增量就是使爬虫获取到的数据以增量的形式稳定增长

2.增量爬虫的实现方案

1、爬虫结束----数据在保存到数据库前,查看数据是否重复,或者用update方法来做更新操作。

以数据存储mongodb为例

import pymongo
import hashlib
### 实现md5加密
def get_md5(value):
    md5 = hashlib.md5()
    md5.update(value.encode())
    return md5.hexdigest()
## 与数据库建立连接
client = pymongo.MongoClient(host='localhost',port='27017')
## 连接的数据库
db = client['demo'] 
## 将url进行加密
hash_url = get_md5(url)
item['hash_url'] = hash_url
## 如果数据库里有不做就更新,没有就插入
db['bar'].update({'hash_url':'item["hash_url"]'},{'$set':item},True)

2、爬虫开始----在爬取数据前,查看这个url是否被爬取过。–查看url是否重复(利用redis去重)

### 爬虫开始前,检验url有没有被爬取过
### 重复返回True
def request_seen(url):
    hash_url = get_md5(url)
    red = redis.Redis(host='localhost',port=
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值