聚类
白水成泉
这个作者很懒,什么都没留下…
展开
-
高斯混合聚类
高斯混合聚类将高斯分布、贝叶斯公式、极大似然法(EM)估计的思路混合在这一种方法中。高斯混合聚类是从概率的角度对样本进行聚类的,而且这个概率是连续概率。基础概念先验概率:指根据以往经验和分析得到的概率。 类条件概率:指已知一个条件下,结果发生的概率。 后验概率:判断结果的发生是由哪个原因引起的概率。 一元高斯函数:多元高斯分布:对n维样本空间 X中的随机向量x,若x服从高斯分布,其概率密度函数为:上面的一元正态公式其实就是当n = 1 的时候的特殊化。...原创 2020-11-28 15:53:31 · 2193 阅读 · 0 评论 -
聚类基础知识点
最近在学习西瓜书聚类这一张,整理了一些聚类的基础知识,记录下来,方便查阅。聚类和分类的区别:分类就是向事物分配标签,聚类就是将相似的事物放在一起。分类:贝叶斯、决策树、逻辑回归聚类:k-means、FCM、高斯混合聚类聚类目标:使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。性能度量:1.外部指标 2.内部指标距离:距离度量和非度量距离性质:非负性、同一性、对称性、直递性有序属性:闵可夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离联合概率分布: 定义:设原创 2020-11-23 15:03:19 · 424 阅读 · 0 评论 -
FDP聚类算法
基本假设:K-means是通过指定聚类中心,再通过迭代的方式更新聚类中心的方式,由于每个点都被指派到距离最近的聚类中心,所以导致其不能检测非球面类别的数据分布。虽然有DBSCAN(density-based spatial clustering of applications with noise)对于任意形状分布的进行聚类,但是必须指定一个密度阈值,从而去除低于此密度阈值的噪音点。 基于以上分析,在CFDP算法是基于这样的假设:聚类中心周围都是密度比其低的点,同时这些点距离该聚类中心的距离相比于其他聚类中原创 2020-11-21 15:24:08 · 1098 阅读 · 0 评论 -
FCM模糊聚类
模糊聚类:思想:使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。首先,需要一种方法度量两个样本的相似性,这个就是距离。FCM是一种重要的聚类算法,其目标是将n维空间中的数据X = {x_1, ..., x_N}分配到C个聚类中心v_1, ..., v_C。在欧氏距离意义下,数据靠近哪个聚类中心就属于哪个类。把这种一个样本属于结果的这种相似的程度称为样本的隶属度,一般用原创 2020-11-21 09:29:02 · 1466 阅读 · 0 评论 -
K-means算法
K-means:k-means的目标函数:其中,表示数据集中点的总数目,表示所需聚类的数据,表示第K个中心点的位置。对于,当属于第K个类时,否则正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消。于是从式(1)可知,K-means算法的最终目标为求解正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消与正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消。时间复杂度:O(tKmn),其中,t为迭代次数,...原创 2020-11-20 09:36:34 · 2597 阅读 · 3 评论