MMD_5a_Clustering

最新推荐文章于 2023-05-28 01:53:23 发布

Young_Gy

最新推荐文章于 2023-05-28 01:53:23 发布

阅读量1.4k

点赞数 1

文章标签： mmd

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Young_Gy/article/details/49053479

版权

聚类概述

定义

这里写图片描述

距离的定义

计算聚类过程中点和cluster的距离，有以下几种方式：

这里写图片描述

算法的分类

这里写图片描述

启发式算法

概述

启发式算法有两种方法，从下而上或者从上而下。
以从下而上为例，一开始每一个obes就是一个cluster，然后根据距离，不断地结合两个更近的cluster到一个cluster，达到一定的收敛条件后停止。
这里写图片描述

KEY POINTS

这里写图片描述

如何代表cluster

这里写图片描述

如何决定距离远近

这里写图片描述

没有欧氏距离怎么办

这里写图片描述

终止条件

这里写图片描述

总结

这里写图片描述

K-MEANS算法

特点

假设欧氏距离，也就是欧式空间是存在的
一开始必须确定k
初始集群先随机选择centroid点，个数等于k（朴素的方法是随机选择，但是容易产生距离太近属于一个cluster的点，影响分类结果）。

过程

首先先选择k个初始点当做群的中心，然后数据集中的所有点根据与群中心的远近划分属于哪个群。然后在根据群的性质取群的中心点，然后再次划分所有点属于的群，不断往复，直到群的中心不发生变化，达到稳定的状态停止。

KEY-POINTS

选择k

策略是：多选择几个k，看看average distance to centroid如何变化。
理论上，随着k的增加，这个值应该越变越小，但是减少的幅度也越来越小，我们需要的就是那个拐点。
这里写图片描述

选择初始点

初始点的选择很有学问，不能够太近都属于一个cluster，这样的话其他的cluster就发现不了。
所以，应该让点越分散越好。
这里写图片描述

复杂度

这里写图片描述

BFR算法

大数据集的难题

前面讨论的启发式算法的复杂度是 $O(n^3)$ ，使用priority queue的话能减低到 $O(n^2logn)$ 。
KMEANS的复杂度是 $KN$ ，但是收敛很慢，也不适用于大数据集。

因此，我们需要一种算法，能够处理数据量很大的分类问题。

概述

BFR(Bradley-Fayyad-Reina)算法，是KMEANS的变种，适用于大数据的分类（数据量只能在disk中存储，不可能全部放在memory里）。

这个算法的基础是一个很重要的假设：

assumes each cluster is normally distributed around a centroid in Euclidean space.

假设

假设的存在，使得每个cluster长得都像下图这样：

axis-aligned
normal distribution among each cluster in each dimension

这里写图片描述

算法

概述

这里写图片描述

三类点

这里写图片描述

DS点的更新与数据特征

这里写图片描述

整个流程

这里写图片描述

细节

怎么判断点离群中心是不是够近以加入DS

这里写图片描述

怎么判断2个CS是不是应该合成一个

这里写图片描述

CURE算法

其他算法的限制

这里写图片描述

步骤1

核心思想就是先用一些样本训练出大概的样子，并且用4个数据很好地用样本代替了总体。

这里写图片描述

步骤2

这里写图片描述

总结

这里写图片描述

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Young_Gy CSDN认证博客专家 CSDN认证企业博客

码龄10年

151: 原创

12万+: 周排名

167万+: 总排名

71万+: 访问

: 等级

7254: 积分

518: 粉丝

363: 获赞

117: 评论

1514: 收藏

私信

关注

热门文章

最新评论

扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 这里题主应该再加个解释 1、这里用ekf的原因是毫米波的状态转移方程是非线性的。 2、激光雷达状态转移是线性的，所以激光雷达用kf更新 3、两类的预测为什么是相同的，因为都是在同一个状态空间下预测的,,所以两类就统一在一起，没必要单独算一遍，增加计算量（我猜的）。再看对当前状态的修正，用的就有区别了，因为当前状态获取毫米波雷达的数据不是xyz
扩展卡尔曼滤波EKF与多传感器融合
qq_35210952: 如果是radar的用KF修正，是LIDAR用EKF修正，这是咋设计的呢？下面的图给出的是EKF的效果，都混在一起咋看的效果呢
局部放电的特征选择
煎饼侠797: 跪求实验数据集227703401@qq.com
局部放电的特征选择
我是个可爱小白菜: 求数据集
局部放电的特征选择
Selling_dusk: 跪求试验数据1255906008@qq.com

大家在看

【2024/09/20更新】植物大战僵尸杂交版V2.5下载 321

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。