Paper
文章平均质量分 71
Kevin-Jia
这个作者很懒,什么都没留下…
展开
-
基于字符串比对的文档复制检测方法
基于字符串比对的文档复制检测方法是从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些数值被称为“近似指纹''。通过统计Hash表中相同的“近似指纹”的数目或者比率来获得文档间的相似度。 过程:选取字符串----hash map-----Compute Resemblance1. Sif工具 首先构造一个字符集,字符集中的每个元素称为销(anchor),然原创 2015-05-02 16:08:59 · 804 阅读 · 0 评论 -
字符串包含问题算法
现在假设有2个字符串r和s,其中m=r.len>n=s.len,设计一个算法判断字符串s中的每个字符在r串中均存在. 显然,很容易想到的一个算法,最粗鲁最暴力算法,其时间复杂度O(m*n)(也就是对s字符串中的每个字符在r中进行查找判断)。这或许是我自己想到的最快的方法了。显而易见,这样的算法或许不是算法。如何降低其时间复杂度呢?当时我想到了利用hash算法,但是没有仔细深入思考,然后看了字原创 2015-05-02 16:08:57 · 912 阅读 · 0 评论 -
比较两篇文章的相似性方法
对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下: 1、利用余弦定理 我们知道向量a,b之间的夹角可用余弦定理求得: 如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利用此我们可以用来比较文章的相似性。 首先使用一个向量来描述一篇文章,对于一篇文章中的实词,我们可以计算出它们的单文本词汇频率/逆文本频率原创 2015-05-02 16:08:51 · 8096 阅读 · 0 评论 -
【原创】LSH和p-stable LSH
原文地址:LSH">【原创】LSH和p-stable LSH作者:咖啡猫 最近研究了LSH(Locality-SensitiveHashing)的有关概念和算法,现将有关知识陈列下来,共同学习,共同进步。 一、原始LSH1、概述 LSH主要用来解决高维空间中点的近似最近邻搜索问题,即Approximate NearestNeighbor。LSH将原始空间中的点嵌入到Ham转载 2015-05-02 16:09:02 · 1681 阅读 · 0 评论 -
编辑距离及其算法
现在定义字符串上的操作有一下几种:添加一个字符;删除一个字符;修改一个字符。即允许对字符串的操作有以上3种,那么使得2个字符串相等执行的最少编辑步骤为多少?也就是说,可以对2个串都进行以上3种操作,最少的操作次数。其也就是所谓的编辑距离。现在我们可以使用动态规划:设源字符串s的长度i=s.length(),另外一个字符串r为j=r.length(),那么有:1.如果i=j=原创 2015-05-02 16:08:54 · 1409 阅读 · 0 评论