自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夜谷子

观世事之经纬以命物,知存亡之门户;筹策万类之始终,达人心之理;见变化之朕焉,而守司其门户。

  • 博客(4)
  • 收藏
  • 关注

原创 文本在线查重(Online Copy Detection)的实现

文本在线查重(Online Copy Detection)的实现概述需求给定一段文本,需要返回其和网络开放性数据相比的整体重复率以及具体的重复情况(具体重复的句子/字符串以及重复程度)。问题分析该问题属于copy-detection领域。由于需要给出查询文本具体重复的句子/字符串以及相应的重复程度,所以我们需要对查询文本进行合理的切分,并需要一一计算出切分后得到的字符串与在线开放互联...

2018-09-25 16:48:17 27412 13

原创 【文本相似性计算】minHash和LSH算法

minHash和LSH算法原理原理部分皆转载于http://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.htmlJaccard相似度判断两个集合是否相等,一般使用称之为Jaccard相似度的算法(后面用Jac(S1,S2)来表示集合S1和S2的Jaccard相似度)。举个列子,集合X = {a,b,c},Y = {b,c,d}。...

2018-09-25 14:27:06 15710 1

原创 【文本相似性计算】simHash算法

simHash算法原理simHash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。simHash算法很精巧,但却十分容易理解和实现,具体的simHash过程如下:首先将文章转换为一组加权的特征值构成的向量。初始化一个f维的向量V,其中...

2018-09-25 13:41:26 2252

原创 【文本相似性计算】winnowing算法

winnowing算法算法原理k-grams是指字符串中长度为k的子串,这些子串满足“高度邻接”(k值自定义)。比如一个字符串abcd,那么将abcd分解成3-grams就是abc和bcd两个子串,每个子串就称为一个3-gram。可以看到第二个子串仅仅是在第一个子串的基础上向后移了一个位置,所以对于一个长度为n的字符串,当我们将它分成k-grams后,将会形成n-k+1个子串,且每个子串长度...

2018-09-25 12:22:57 3998 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除