文本挖掘理论（三）

VIP文章 Seal_Wings

于 2019-12-04 18:21:26 发布

阅读量505

点赞数

分类专栏：文本挖掘

本文链接：https://blog.csdn.net/seal_wings/article/details/103387898

版权

# -*- coding: gbk -*-

'''

05 text clustering

===文本自动聚类技术===
仅靠事物间的相似性作为簇划分的准则

==文本聚类基本步骤==
	文档表示
	聚类算法
	可视化
	
==评价指标==
	准确率
	召回率
	F-Measure
	所有类的总体评价
	宏平均Macro
	微平均Micro
	
==聚类的准则函数==
	误差平方和准则（sum-of-squared-error criterion）
	
==聚类算法的评价==
	该算法是否能发现某些或所有的隐含模式
	
	好的聚类算法要产生高质量的簇，这个簇的特点是：
		高的簇内相似性
		低的簇间相似性
	
	聚类结果的好坏取决于：
		聚类算法采用的相似性评估方法
		该算法的具体实现
	
	一个好的聚类算法：
		可伸缩性
		能发现任意形状的簇
		参数输入的时候，尽量不需要特定的领域知识
		对输入数据对象的顺序不敏感
		能够处理噪声和异常
		能够处理不同类型的属性
		能处理高维数据
		能产生一个好的、满足用户指定约束的聚类结果
		结果是可解释的、可理解的和可用的
	
==聚类算法==
	
	文档间距离
		向量空间模型
	簇间距离
		最短距离法、最长距离法、重心法、簇平均法、离差平方和
	聚类方法
		划分方法：
			概述
			K-means：时间代价O(tkn)
						缺陷：
						要求用户必须事先给出要生成的簇的数目，选择初始划分的最佳方向、更新和停止准则
						难以处理大小很不相同的簇或