目前完成了K均值的聚类的程序
发现了以下问题:
1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;
2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。
有以下想法:
1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;
2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度
目前完成了K均值的聚类的程序
发现了以下问题:
1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;
2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。
有以下想法:
1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;
2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度