- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 文档的相似度(4)--总结
经过起那三篇博客的介绍,关于文档相似度的分析已经基本结束了,下面做下总结。 此处给出一个完整的相似项发现方法: 首先找出可能的候选对相似文档集合,然后基于该集合发现真正的相似文档。必须强调的是,这种方法可能会产生伪反例,即某些相似文档对由于没有进入候选对所以最终没有被识别出来。同样,该方法也可能产生伪正例,即在评估了某些候选对后,发现其相似度不足。(1)选择某个
2017-03-19 21:16:22 1536 2
原创 文档的相似度(3)--局部敏感哈希算法
此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了,但是我们应该要发现,及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于,即使文档本身的数目并不很大,但需要比较的文档对的数目可能很大。例如: 假定有100万篇文档
2017-03-19 21:02:33 4744 2
原创 文档的相似度(1)--Jaccard相似度与文档的shingling
在当今的计算机高速发展的时代,对于文章的查重等涉及到数据比对的需求越来越高了。 为了识别字面上相似的文档,日常生活中我们所做的就是比对两个文档中相似的语句的比重,如果大部分内容都是相同的话,那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的,自己看了资料刚好写了一个简单的文档相似度分析的程序,刚好分享下。 在编程中,我们可以利用集合的
2017-03-15 21:18:28 3492 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人