聚类

最新推荐文章于 2022-04-04 17:31:36 发布

flyOU0

最新推荐文章于 2022-04-04 17:31:36 发布

阅读量174

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyOU0/article/details/115163150

版权

描述观测（变量）的亲疏关系

距离

1.非负性、同一性：距离要大于等于0，且自己到自己的距离为0.
2.对称性：A点到B点的距离与B点到A的距离是一样的。
3.三角不等式：A点到C点的距离要小于A点到B点的距离加B点到C点的距离。
例如：欧氏距离、马氏距离（协方差阵）、

相似系数

1.若两变量线性相关，那么它们之间的相关系数为±1。
2.相关系数的绝对值小于1。
3.向量A跟B的相关系数与向量B跟A的相关系数一样。
例如：夹角余弦、相关系数

系统聚类（层次聚类）

思想

1.将每一个样本都作为一类，计算每个类间的距离。
2.将距离最近的两个类归为一类，再次计算每个类之间的距离，如此往复，直到只剩下一个大类。

K的确定

1.散点图
2.根据统计量R方：当R方下降较快时，该步合并不进行。（组间残差平方和/总的残差平方和）

K-means聚类

思想

1.确定K值以及K个初始化类中心
2.就算每个样本与每个类中心的距离，将样本归类为距离类中心最小的那一类
3.计算每个类的中心（一般为均值），作为新的类中心
4.重复第2、3步
5.直到类中心变化不大的时候停止

初始类中心的选择

1.经验
2.随机抽样部分样本进行层次聚类，计算K类的各均值作为凝聚点。
3.选择距离最大的K个点作为初始类中心。
4.密度法。

密度聚类

密度：点的 $\varepsilon$ 领域内样本的数量

思想

1.确定 $\varepsilon$ 的值
2.计算每个样本 $\varepsilon$ 领域内的样本数，若包含多个，那么该样本作为类中心
3.将直接密度可达的类进行合并。

一些问题

1.初始点随机选取的话，怎么选择最好的聚类结果？
answer：计算各个结果的类间距与类内距，取类间距/类内距最大的那个结果。
2.k-means计算距离的权重怎么分配？
answer：根据各属性的贡献度计算，贡献度的话，我觉着可以使用信息增益率来计算。
3.混合类型怎么计算距离？
类别变量：同类为0，异类为1。
连续变量：直接计算欧氏距离，特殊情况就标准化。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类

描述观测（变量）的亲疏关系距离1.非负性、同一性：距离要大于等于0，且自己到自己的距离为0.2.对称性：A点到B点的距离与B点到A的距离是一样的。3.三角不等式：A点到C点的距离要小于A点到B点的距离加B点到C点的距离。例如：欧氏距离、马氏距离（协方差阵）、相似系数1.若两变量线性相关，那么它们之间的相关系数为±1。2.相关系数的绝对值小于1。3.向量A跟B的相关系数与向量B跟A的相关系数一样。例如：夹角余弦、相关系数系统聚类（层次聚类）思想1.将每一个样本都作为一类，计算每个类间
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。