我的心我来
码龄7年
关注
提问 私信
  • 博客:719
    719
    总访问量
  • 2
    原创
  • 787,676
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-05-30
博客简介:

weixin_42348058的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得1次收藏
创作历程
  • 1篇
    2019年
  • 1篇
    2018年
成就勋章
兴趣领域 设置
  • 人工智能
    机器学习自然语言处理tensorflow
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

布隆过滤器的学习之路

简介:工作中可能会遇到,处理大批量数据的去重工作,例如爬虫,数据清洗,需要在大数据量下判断数据是否存在。如果我们对于判断的准确性稍微放松一些,就可以, 评估:如果你的数据量不大,在千万以下,并且拥有redis资源充分,可以使用MD5的hash算法生成32位指纹,利用redis进行数据去重,如果亿级别甚至更多的数据量,就要考虑资源问题,毕竟redis的价格还是很贵的,这时候就可以利用布隆过滤。或者...
原创
发布博客 2019.08.29 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python爬虫工作遇到的问题

1,redis 的强制关闭导致磁盘不可写入,,flush
原创
发布博客 2018.06.08 ·
484 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏