- 博客(2)
- 资源 (5)
- 收藏
- 关注
转载 聚类相关词汇扫盲
1.停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、 介词、 副词或 连词等。如果 搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢? 在中文网站里面其实也存在大量的stopword,我们称它
2015-12-14 15:30:43 741
转载 文本聚类算法简要介绍
1. 传统的文本聚类算法 传统的文本聚类算法分为以下几种1.1 分割方法(partitioning methods)1.1.1 K-MEANS算法:工作原理:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类
2015-12-03 09:28:37 1068
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人