关闭

[C#]文本相似度识别(2)

标签: c#作业
801人阅读 评论(0) 收藏 举报

目前完成了K均值的聚类的程序

 

发现了以下问题:

1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;

2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。

 

 

有以下想法:

1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;

2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:89480次
    • 积分:1084
    • 等级:
    • 排名:千里之外
    • 原创:17篇
    • 转载:24篇
    • 译文:0篇
    • 评论:9条
    最新评论