单链聚类算法_基于划分的聚类算法聚类算法.ppt

基于划分的聚类算法聚类算法

更新模糊划分 模糊聚类算法 分析:权值wij指明点xi在簇Cj中的隶属度。如果xi靠近质心cj,则wij相对较高;而如果xi远离质心cj,则wij相对较低。 P=2 P>2 分析:该指数降低赋予离点最近的簇的权值。事实上,随着p趋向无穷大,该指数趋向于0,而权值趋向于1/k;另一方面,随着p趋向于1,该指数加大赋予离点最近的簇的权值。随着p趋向于1,关于最近簇的隶属度权值趋向于1,而关于其他簇的隶属度权值趋向于0,这对应于K均值。 目标函数-误差的平方和 模糊聚类算法 三个圆形簇上的模糊c均值。对于100点的二维数据集,使用模糊c均值发现其三个簇的结果。每个点指派到它具有最大隶属度权值的簇。属于各个簇的点用不同的标记显示,而点在簇中的隶属度用明暗程度表示。 模糊聚类算法的优点与局限性 能指示任意点属于任意簇的程度 与k-means具有相同的优缺点 计算密集性更高 使用混合模型的聚类 基于统计模型的聚类 假定数据由一个统计过程产生,通过找出最佳拟合数据的统计模型来描述数据,其中统计模型用分布和该分布的一组参数描述 EM算法基于混合模型 使用若干统计分布对数据建模,每个分布对应于一个簇,每个分布的参数提供对应簇的描述 使用混合模型的聚类 混合模型 混合模型将数据看作从不同的概率分布得到的观测值的集合,概率分布可以是任意分布,但通常是多元正态的 混合模型对应于如下数据产生过程,给定几个分布(通常类型相同但参数不同),随机地选取一个分布并由它产生一个对象。重复该过程m次,其中m是对象的个数 形式的,假定有k个分布和m个对象x1, …, xm,第j个分布的参数θj, Θ是所有参数的集合,即Θ={θ1, …, θk},prob(xi| θj)是第i个对象来自第j个分布的概率,wj是对象x由第j个分布产生的概率,∑wj=1,对象x的概率 如果对象以独立的方式产生,则整个对象集的概率是每个个体对象xi的概率的乘积 使用混合模型的聚类 混合模型 对于混合模型,每个分布描述一个不同的组,即一个不同的簇。通过统计方法,我们可以由数据估计这些分布的参数,从而描述这些分布(簇)。 我们可以识别哪个对象属于哪个簇; 混合模型并不产生对象到簇的明确指派,而是给出具体对象属于特定簇的概率 混合模型的聚类 目标:识别每个对象属于哪个簇 计算每个对象属于特定簇的概率 混合模型中,每个簇对应于一个分布 需要计算每个对象由给定分布产生的概率 问题: 每个分布的参数未知 需要根据数据估计分布参数 但是存在多个分布,属于每个分布的数据未知,如何估计分布的参数? 用类似于k-means的方法 使用最大似然估计模型参数 给定数据的一个统计模型,必须估计该模型的参数。用于这类任务的标准方法是最大似然估计。 考虑由一维高斯分布产生的m个点的集合。假定点的产生是独立的,则这些点的概率是个体点概率的乘积。 由于这个概率是一个很小的数,一般使用对数概率。 如果 和 的值未知,需要找到一个过程来估计它们。一种方法是选择合适的参数值使得数据是最可能的(最似然的)。这种方法在统计学上称作最大似然原理。 使用最大似然估计混合模型参数:EM算法 我们可以使用最大似然方法估计混合模型的参数。 最简单的情况,我们知道哪个数据对象来自哪个分布。 更一般的情况,我们不知道哪个点由哪个分布产生。这样,就不能直接计算每个点的概率,似乎也不能使用最大似然原理来估计参数。 EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计(这些参数是最大化该似然的参数)。该迭代继续下去,直到参数的估计不再改变或改变很小。通过一个迭代搜索,仍然使用了最大似然估计。 EM算法 1 选择模型参数的初始集 2 repeat 3 期望步:对于每个对象,计算每个对象属于每个分布 的概率,即计算prob(分布j|xi, Θ) 4 最大化步:给定期望步得到的概率,找出最大化该期望似然的新的参数估计 5 until 参数不发生变化 EM算法聚类 选择模型参数的初始值 与k-means类似,可以随机选取,也可以用其他方法 期望步:计算prob(分布j|xi, Θ) 一般假定每个分布都是高斯分布 可以使用贝叶斯公式和全概率公式 类似于k-means中将对象指派到簇 最大化步: 用最大似然估计 类似于k-means中计算簇质心 EM算法聚类 EM算法—例子 2000个点,分别服从两个分布,假定σ已知, σ1= σ2=2.0,但μ1和μ2未知,点以相同的概率由两个分布产生 随机选取μ1和μ2的初始值,如-2和3,初始参数 分别是 和 ,整个混合模型的参数集是 期望步:计算某个点取自一个特定分布的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值