research
文章平均质量分 50
shenlan211314
2010年7月-今:中国人民大学 信息学院 硕士在读
2006年9月-2010年7月:河北大学 数学与计算机学院 本科
2003年9月-2006年9月:辛集中学
展开
-
XMLDM2011
XMLDM2011 网站已经完成,欢迎大家来投稿~http://datasearch.ruc.edu.cn/XMLDM2011原创 2011-01-27 12:30:00 · 631 阅读 · 0 评论 -
similarity join(record linkage, merge/purge, deduplicate)总结
join的时候一般有如下的特点: 数据集较大,但是能够join的数据相对非常非常的少。 1. 为了提高join的效率一般有两种做法 1.1 Cartesian product的时候用cost较小的function来判断其相似度不能达到阈值,从而避免用c原创 2011-08-14 14:22:11 · 2025 阅读 · 0 评论 -
Jaccard Coefficient(Jaccard Similarity)
Set s and Set t JC(s,t)=|s∪t|/|s∩t| Java实现如下所示: package ruc.database.similarity; import java.util.ArrayList; import java.util.Li原创 2011-08-15 22:30:39 · 4224 阅读 · 0 评论 -
Edit Distance(Dynamic Programming,动态规划算法实现)
Edit Distance即编辑距离,衡量两个字符串的相似度的方法,详细可以搜索维基百科,核心思想是计算一个字符串要通过多少次的“插入、删除、替换”字符操作转变成另一字符串。 Java实现如下: package ruc.database.similarity;原创 2011-08-15 22:33:09 · 2168 阅读 · 0 评论 -
Trie,字典树
前两天,写了一个字典树,感觉不太好,有点臃肿。 下面是根据网友的帖子(http://www.ej38.com/showinfo/java-184775.html,google搜索的,不晓得哪个是原创了),修改后的样子。 package ruc.datasearch.t原创 2011-08-20 15:25:36 · 1236 阅读 · 0 评论