海量数据处理

最新推荐文章于 2022-03-01 20:31:20 发布

diaoxia2952

最新推荐文章于 2022-03-01 20:31:20 发布

阅读量95

点赞数

原文链接：http://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html

版权

1.倒排索引

　　每一项包括一个属性值和具有该属性值得记录地址

　　不是由记录来确定属性值，而是由属性值确定记录。

　　某个单词出现的文档编号，列表，也可以存文档编号的差值

2.simHash算法

　　比较两篇文章相似度的算法分词，hash，加权，合并，降维

　　每个特征向量（分词）赋值权值，重要程度

　　Hash(博客)=101011 哈希值为二进制数组成的n位签名

　　加权： W=Hash*weight 1为+1 0为-1

　　合并降维

　　出现越少的词，权值越高

　　TF-IDF算法特征提取得到权重

　　降维后得到签名指纹海明距离两个二进制异或后1的个数，3以内则相似

3.Bloom Filter

　　判断一个元素是否在集合中，空间高效的概率模型

4.MD5

　　512位，四分128位 abcd

转载于:https://www.cnblogs.com/BetterThanEver_Victor/p/10054573.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注