文本挖掘理论(三)

# -*- coding: gbk -*-

'''

05 text clustering

===文本自动聚类技术===
仅靠事物间的相似性作为簇划分的准则

==文本聚类基本步骤==
	文档表示
	聚类算法
	可视化
	
==评价指标==
	准确率
	召回率
	F-Measure
	所有类的总体评价
	宏平均Macro
	微平均Micro
	
==聚类的准则函数==
	误差平方和准则(sum-of-squared-error criterion)
	
==聚类算法的评价==
	该算法是否能发现某些或所有的隐含模式
	
	好的聚类算法要产生高质量的簇,这个簇的特点是:
		高的簇内相似性
		低的簇间相似性
	
	聚类结果的好坏取决于:
		聚类算法采用的相似性评估方法
		该算法的具体实现
	
	一个好的聚类算法:
		可伸缩性
		能发现任意形状的簇
		参数输入的时候,尽量不需要特定的领域知识
		对输入数据对象的顺序不敏感
		能够处理噪声和异常
		能够处理不同类型的属性
		能处理高维数据
		能产生一个好的、满足用户指定约束的聚类结果
		结果是可解释的、可理解的和可用的
	
==聚类算法==
	
	文档间距离
		向量空间模型
	簇间距离
		最短距离法、最长距离法、重心法、簇平均法、离差平方和
	聚类方法
		划分方法:
			概述
			K-means:时间代价O(tkn)
						缺陷:
						要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新和停止准则
						难以处理大小很不相同的簇或
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值