第九章 聚类

在这里插入图片描述

9.1

在这里插入图片描述

9.2(只有理解,无证明)

Hausdorff距离量度度量空间中真子集之间的距离。所谓度量空间,也就是一个集合,其中任意元素之间的距离可定义;真子集就简单理解成一组有限(可以是无限)数目的元素(点)集合。因此,Hausdorff距离可以理解成一个点集中的点到另一个点集的最短距离的最大值。
在这里插入图片描述
通俗来讲,计算所有 ∣ ∣ x − z ∣ ∣ 2 ||x-z||_2 xz2,其中x∈X,z∈Z;然后找出每个z对应的最小的 ∣ ∣ x − z ∣ ∣ 2 ||x-z||_2 xz2,令其组成集合b;最后再从b中找到最大的 ∣ ∣ x − z ∣ ∣ 2 ||x-z||_2 xz2
形象点说 d i s t h ( X , Z ) dist_h(X,Z) disth(X,Z)是对X内所有点做圆并慢慢扩大,遇到的第一个属于Z的点时的半径,就是当前点的minz∈Z ∣ ∣ x − z ∣ ∣ 2 ||x-z||_2 xz2,而所有半径中最大的一个,就是 d i s t h ( X , Z ) dist_h(X,Z) disth(X,Z)

9.3

不能,因为这是一个NP难问题,因此k均值算法采用了贪心策略,因此 k 均值容易陷入局部最优,即只能找到初始化均值附近的局部最优解,无法找到全局最优解,所以在使用 k 均值时常常多次随机初始化中心点,然后挑选结果最好的一个。
具体算法中,先随机挑选初始均值向量,然后根据挑选的进行蔟的划分以及更新,此后的过程中一直受到第一次随机挑选初始均值向量的影响,因此可能这也是它易陷入局部最优的原因!

9.4(待补)

9.5

法一:理解证明
密度相连证明:
密度相连的定义是对于 x i x_i xi x j x_j xj,若存在 x k x_k xk x i x_i xi x j x_j xj都可密度可达,那么 x i x_i xi x j x_j xj密度相连。
然后我们再看题目说x为核心对象,X是由与x密度可达的所有样本构成的集合,那么X中任意的元素至少都可由x到达,即证
最大性证明:
最大性: x i x_i xi∈C, x j x_j xj x i x_i xi密度可达,推出 x j x_j xj属于C;
将上面的 x i x_i xi替换成题中x, x j x_j xj是X中除了x的其他元素,那么由x密度可达的所有组成X满足,即证!
法二:课本
在这里插入图片描述

9.6

合并时候选择最近的聚类簇进行合并,而判断距离远近的话有三种距离:最小距离、最远距离、平均距离;
最小距离:个人感觉以最小距离为判断准则是判断所有两两聚类簇的最小相似程度,就是说哪两个聚类簇之间的最小相似程度最相似,那么就合并。因为最小距离是两个簇的最近样本决定,就像两个圆扩张一样,碰到就行,并把此时碰到的距离记下来并为判断依据。
最大距离:个人感觉以最大距离为判断准则是判断所有两两聚类簇的最大相似程度,就是说哪两个聚类簇之间的最大相似程度最相似,那么就合并。因为最大距离是两个簇的最远样本决定,就像两个聚类簇是两个小圆一样,最远距离是找个大圆把这两小圆刚好包起来,并把此时大圆距离记下来并为判断依据。

9.7

这题不太懂,因此参考别人答案如下:
参考1参考2
原型聚类:输出线性分类边界的聚类算法显然都是凸聚类,这样的算法有:K均值,LVQ;而曲线分类边界的也显然是非凸聚类,高斯混合聚类,是通过概率模型来计算每个样本属于每个分类的概率。因此不再单纯与均值相关,而且和方差(协方差)有关,在簇间方差不同时,其决策边界为弧线,不再一定得到凸聚类,所以高混合聚类为非凸聚类;
密度聚类:DBSCAN,非凸聚类;
层次聚类:AGENS,是凸聚类。

9.8

我觉得9.2的性能指标挺好的了。。。

9.9

P201的闵可夫斯基距离和VDM结合处理混合属性。

9.10(待补)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值