[C#]文本相似度识别(3)

原创 2011年01月24日 17:57:00

做了一天好虚呀。

 

目前实现了两步,都对两篇文章而言的

 

 

对文章的每一段进行进行相似度识别,初步判断相似的段落;

对可疑的相似段落,进一步识别哪些句子雷同,并输出结果。

 

目前还是单线程的,而且算法优化做的比较少。

 

 

遇到了一些麻烦:

 

1,多线程的传参问题,到目前为止依然没有解决,所以还是单线程的;

2,关于引用类型问题,比如

 

(1)

我把每次的结果记录在一个in[2]里面,并把每个int[2]添加到一个Arraylist里

int[2]的值随着循环而改变,但是由于int[]是引用类型,所以这样做就不可行了

 

(2)

输出的时候用到了

param 的修饰符,比较好用;

StringBuilder这个东西也很好

再有就是遇到传参有什么困难时,干脆就全部转化成String,然后再转回去;

关于Arraylist,它实际是object型的,对于整体可以用Toarray转化为数组,对于元素可以强制转化为需要的类型

 

[C#]文本相似度识别(2)

目前完成了K均值的聚类的程序发现了以下问题:1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。有以...
 • lhyan792
 • lhyan792
 • 2011年01月21日 22:48
 • 873

[C#]文本相似度检测(1)

任务: 完成一个反作弊的网络程序(或单机版的.exe),能够在多篇文本的作业中识别出最相似的若干对文本。进度:借助MD5,初步实现了两篇文档的相似度检验;完成K均值聚类的实现;目标:MD5的速度很慢,...
 • lhyan792
 • lhyan792
 • 2011年01月17日 19:09
 • 1373

文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具...
 • kevinelstri
 • kevinelstri
 • 2017年04月12日 10:20
 • 928

文本相似度算法(余弦定理)

文本相似度算法(余弦定理) 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 B...
 • itstt
 • itstt
 • 2013年09月09日 20:22
 • 12022

文本相似度的设计与实现

文本相似度的设计与实现 摘要:本文主要设计并实现了一个文本相似度系统,该系统主要功能计算文档之间的相似度,通过使用向量空间模型(VSM,Vector Space Model)及余弦相似度计算公式...
 • u013473512
 • u013473512
 • 2017年01月20日 15:37
 • 1819

simhash文本相似度计算

常见文本相似度计算方法:1 向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角...
 • a1368783069
 • a1368783069
 • 2016年08月03日 21:07
 • 791

自然语言处理入门(1)——文本相似度计算

文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似度常用的计算方法有TF-IDF、LSI、LDA等。本文分别用上述3种算法来对同一批文本计算相似度,并分析比较不同...
 • FlySky1991
 • FlySky1991
 • 2017年05月27日 23:38
 • 1351

短文本相似度度量

短文本语义相似度度量基于深度学习的短文的语义相似度计算依存句法分析依存句法分析是一种常用的句子结构的表达方式。在依存句法中,句子的结构是以其谓语为中心,词语之间的相互依存而构成的树形结构。依存句法分析...
 • weiyudang11
 • weiyudang11
 • 2016年09月01日 19:46
 • 3941

文本相似度的那些算法

子序列与子字符串这个系列问题包含这么几种:最大子序列、最长递增子序列、最长公共子串、最长公共子序列。 几个子问题都可以用动态规划的思路来求解。对于长度为i、j的两个字符串 ,使用m[i][j]矩阵来...
 • a345017062
 • a345017062
 • 2016年09月27日 17:04
 • 7347

中文文本相似度的研究有什么用

前言人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计...
 • wangyangzhizhou
 • wangyangzhizhou
 • 2017年12月15日 16:51
 • 1590
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[C#]文本相似度识别(3)
举报原因:
原因补充:

(最多只允许输入30个字)