[C#]文本相似度识别(2)

原创 2011年01月21日 22:48:00

目前完成了K均值的聚类的程序

 

发现了以下问题:

1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;

2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。

 

 

有以下想法:

1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;

2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度

文本相似度算法(余弦定理)

文本相似度算法(余弦定理) 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 B...
  • itstt
  • itstt
  • 2013年09月09日 20:22
  • 11765

java抓取文字的最大相似度

public static void main(String[] args) { //要比较的两个字符串 String str1 = "汗1滴禾下土"; String str2 = "汗滴...
  • xb12369
  • xb12369
  • 2014年12月01日 17:54
  • 1643

几种文本相似度算法的C++实现

1、最小编辑距离
  • fdsdfdsf
  • fdsdfdsf
  • 2014年05月23日 18:55
  • 1591

word2vec词向量训练及中文文本相似度计算 【源码+语料】

  • 2016年02月18日 00:57
  • 142.09MB
  • 下载

基于 word2vec 计算文本相似度的话题聚类研究

  • 2017年11月02日 17:51
  • 976KB
  • 下载

重写gensim.word2vec的文本相似度匹配函数(wmdistance)

1.为什么要重写因为在D jango上莫名其妙的不能import gensim。 从而不能from gensim.models import Word2Vec。 不能load_model.word...
  • qq_21460525
  • qq_21460525
  • 2017年05月11日 20:05
  • 674

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

http://blog.csdn.net/u011239443/article/details/517286591 从数据中抽取合适的特征1.1 TF-IDF短语加权表示 TF-IDF公式的含义是...
  • u011239443
  • u011239443
  • 2016年06月21日 16:59
  • 8068

用gensim.doc2vec 建模、利用相似度做文本分类

想看看doc2vec的效果怎么说,按照 基于gensim的Doc2Vec简析    上面的实验做了下,发现用随机森林做的模型,二分类的准确率50%,换sklearn的KNN,分类结果也是50¥上下。看...
  • a602232180
  • a602232180
  • 2017年11月20日 21:04
  • 148

用gensim doc2vec计算文本相似度

最近开始接触gensim库,之前训练word2vec用Mikolov的c版本程序,看了很久才把程序看明白,在gensim库中,word2vec和doc2vec只需要几个接口就可以实现,实在是方便。py...
  • juanjuan1314
  • juanjuan1314
  • 2017年07月14日 16:48
  • 4185

Google开源word2vec,文本相似度计算工具

谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具——word2vec,这是首款面向大众的Deep Learning学习...
  • Real_Myth
  • Real_Myth
  • 2016年04月22日 19:11
  • 3553
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[C#]文本相似度识别(2)
举报原因:
原因补充:

(最多只允许输入30个字)