海量数据处理

1.倒排索引

  每一项包括一个属性值和具有该属性值得记录地址

  不是由记录来确定属性值,而是由属性值确定记录。

  某个单词出现的文档编号,列表,也可以存文档编号的差值

2.simHash算法

  比较两篇文章相似度的算法  分词,hash,加权,合并,降维

  每个特征向量(分词)赋值权值,重要程度

  Hash(博客)=101011    哈希值为二进制数组成的n位签名

  加权:  W=Hash*weight    1为+1   0为-1

  合并     降维

  出现越少的词,权值越高

  TF-IDF算法   特征提取得到权重

  降维后得到签名指纹    海明距离   两个二进制异或后1的个数,3以内则相似

3.Bloom Filter

  判断一个元素是否在集合中,空间高效的概率模型

4.MD5

  512位,四分128位   abcd

  

  

转载于:https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值