【数据挖掘笔记十一】高级聚类分析

 

11.高级聚类分析

11.1 基于概率模型的聚类

研究一个对象属于多个簇的聚类主题。

1)模糊簇

模糊集S是整体对象集X的一个子集,允许X中的每个对象都具有一个属于S的0到1之间的隶属度。给定对象的集合,一个簇就是对象的一个模糊集,这种簇就是模糊簇,一个聚类包含多个模糊簇。模糊聚类就是划分模糊簇的过程。对象隶属于模糊簇的隶属度,可以用对象与其被指派到的簇的中心之间的距离或相似度来衡量。由于一个对象可能参与多个簇,用隶属度加权的到簇中心的距离之和捕获对象拟合聚类的程度。误差平方和SSE可用来度量模糊聚类对数据集的拟合程度。模糊聚类也称为软聚类,允许一个对象属于多个簇,和传统的硬聚类强制每个对象互斥地仅属于一个簇不同。

2)基于概率模型的聚类

聚类分析的目标是发现隐藏的类别。作为聚类分析主题的数据集可以看做隐藏的类别的可能实例的一个样本,但没有类标号。由聚类分析导出的簇使用数据集推断,并且旨在逼近隐藏的类别。

从统计学上,可以假定隐藏的类别是数据空间上的一个分布,可以使用概率密度函数或分布函数精确地表示。这种隐藏的类别称为概率簇。对于一个概率簇C,它的密度函数和数据空间的点o,f(o)是C的一个实例在o上出现的相对似然。假定概率粗符合某种分布,用数据集(观测的数据)来学习到这种分布,捕获潜在的类别。存在多个概率簇,也就是说观测的对象集是由这些概率簇所生成的数据。给定数据集D和所要求的的簇数k,基于概率模型的聚类分析任务是推导出最有可能产生D的k个概率簇。

数据生成的过程,每个观测对象都独立地有两步生成:首先,根据簇的概率选择一个概率簇;然后根据选定簇的概率密度函数选择一个样本。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值