[C#]文本相似度识别(2)

目前完成了K均值的聚类的程序

 

发现了以下问题:

1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;

2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。

 

 

有以下想法:

1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;

2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度

阅读更多
上一篇[C#]网络扒虫
下一篇[C#][转载] .Net应该学什么怎么学(感觉适合新手,对了解整个.NET知识结构有帮助)
想对作者说点什么? 我来说一句

基于C#文本相似度检测

2010年04月04日 127KB 下载

没有更多推荐了,返回首页

关闭
关闭