# -*- coding: gbk -*-
'''
05 text clustering
===文本自动聚类技术===
仅靠事物间的相似性作为簇划分的准则
==文本聚类基本步骤==
文档表示
聚类算法
可视化
==评价指标==
准确率
召回率
F-Measure
所有类的总体评价
宏平均Macro
微平均Micro
==聚类的准则函数==
误差平方和准则(sum-of-squared-error criterion)
==聚类算法的评价==
该算法是否能发现某些或所有的隐含模式
好的聚类算法要产生高质量的簇,这个簇的特点是:
高的簇内相似性
低的簇间相似性
聚类结果的好坏取决于:
聚类算法采用的相似性评估方法
该算法的具体实现
一个好的聚类算法:
可伸缩性
能发现任意形状的簇
参数输入的时候,尽量不需要特定的领域知识
对输入数据对象的顺序不敏感
能够处理噪声和异常
能够处理不同类型的属性
能处理高维数据
能产生一个好的、满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的
==聚类算法==
文档间距离
向量空间模型
簇间距离
最短距离法、最长距离法、重心法、簇平均法、离差平方和
聚类方法
划分方法:
概述
K-means:时间代价O(tkn)
缺陷:
要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新和停止准则
难以处理大小很不相同的簇或
05-17
05-17
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交