[C#]文本相似度识别(2)

原创 2011年01月21日 22:48:00

目前完成了K均值的聚类的程序

 

发现了以下问题:

1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;

2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。

 

 

有以下想法:

1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;

2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

mySQL 添加表约束

1. 建表时创建外键: CREATE TABLE`xh` (  `id` int(100) unsigned NOT NULL AUTO_INCREMENT COMMENT ,  ...

mysql导入/导出CSV文件

MySQL中导出CSV格式数据的SQL语句样本如下: Sql代码   select * from test_info    into outfile '/tmp/test.csv'&...

mysql导入csv文件出错解决办法

将*.csv文件导入mysql可使用LOAD DATA INFILE, 概要写法: Load data in file  对于本地文件,使用 load data local infile 'D:...

如何将CSV数据导入MySQL?

经常有客户咨询如何将CSV文件导入到MySQL数据库中,特写此文介绍一种方便、快捷的方法。 我们要使用的辅助工具是著名的MySQL管理软件:Navicat for MySQL 1)我准备了一个字...

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

http://blog.csdn.net/u011239443/article/details/517286591 从数据中抽取合适的特征1.1 TF-IDF短语加权表示 TF-IDF公式的含义是...

重写gensim.word2vec的文本相似度匹配函数(wmdistance)

1.为什么要重写因为在D jango上莫名其妙的不能import gensim。 从而不能from gensim.models import Word2Vec。 不能load_model.word...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)