![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 92
凌云竹Csun123
这个作者很懒,什么都没留下…
展开
-
大规模文本相似性计算1(LSH理论部分)
最近在做互联网热点发现时需要将全网一段时间内每一篇文章和它所有相关的报道聚集在一起形成一个事件,再对事件下报道的数量进行汇总和排序得到不同维度的热点事件。 其中相关的报道定义为相似度较高的文章,相似度较高指的是文章间的关键词重合度超过一定阈值或者事件以及事件属性相似度超过一定阈值。 input : 60岁的穆罕默德在贾巴里亚难民营附近的家 中被火箭弹射杀 关键词: 穆罕默德:0.6198;贾巴里亚:0.5796;难民营:0.2304;火箭弹:0.2012;射杀:0.1718;附近:0.1701;原创 2021-02-20 17:19:01 · 871 阅读 · 3 评论 -
可好看集合H
柯基hihihi会会话原创 2018-11-08 16:47:47 · 200 阅读 · 0 评论