一、 KMeans的优劣
优点:
1.是解决聚类问题的一种经典算法,简单、快速
2.对处理大数据集,该算法保持可伸缩性和高效率
3.当结果簇是密集的,它的效果较好
缺点
1.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
2.对躁声和孤立点数据敏感
二、召回率
召回率是指检索出的 相关文档数 和 文档库中所有的相关文档数 的比率
三、构建文本分类器的步骤
1.确定分类体系;
2.积累样本: 从门户网站爬取指定类别下的文章
3.文本预处理;
4.训练分类器;
5.测试分类器性能。
四、Lucene的中文分词器
1.基于字符串匹配的分词
– paoding
– mmseg4j:MMseg算法
– IK:正向迭代最细粒度切分算法
2.基于统计的分词
– imdict:采用隐马尔科夫模型