斯坦福公开课Machine Learning笔记(九)--The K-means Clustering Algorithm

最新推荐文章于 2024-09-17 02:13:06 发布

beichao001

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量453

点赞数

分类专栏：机器学习文章标签：机器学习 clustering

本文链接：https://blog.csdn.net/beichao001/article/details/52416395

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

斯坦福公开课Machine Learning笔记(九)–The K-means Clustering Algorithm

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

K-means聚类算法是十分常用的聚类算法了.

Input: $\{x^{(1)},x^{(m)},...,x^{(m)}\}$

Initialize(簇中心):
$\mu_1,...,\mu_k \in R^n$
Repeat until convergence{
for every i , $c^{(i)}:=\arg\min_j{||x^{(i)}-\mu_j||^2}$
for each j, $\mu_j:=\mu_j=\frac{\sum_{i=1}^{1\{c^{(i)}=j\}x^i}}{\sum_{i=1}^m{1\{c^{(i)}=j\}}}$
}

定义distortion function:

$J(c,\mu)=\sum_{i=1}^m{||x^{(i)}-\mu_{c^{(i)}}||^2}$

k-means其实就是 $J(c,\mu)$ 的坐标上升法.
k-means的两部就是分别对c和 $\mu$ 进行优化,所以一定会收敛.但可能会有多个不同的聚类方式,但是最后还是会收敛.

如何选择k?
在公开课中,Ng说一般自动选择效果都不错.而在Coursera上,Ng使用了一种肘部法则来选择k.就是使用不同的k来计算J组成曲线,曲线会在某个点突然放缓,可以选择这个点来作为k.
同时,J不是凸函数,不能保证收敛到全局最优的情况,如果遇到收敛到局部最优,可以尝试多次重新初始化.

聚类距离:
距离计算有很多种,我找了以下几种:
1. 欧式距离: $D(O_i,O_j=\sqrt{\sum_{i=1}^n{(O_{ik-O_{jk})^2}}}$ 使用原始数据并非归一化后的数据.但如果对象属性的度量标准不同,对结果影响较大.
2. 曼哈顿距离: $D(P_i,P_j)=\frac{1}{n}\sum_{k=1}^n{}|P_{ik}-P_{jk}|$ .多维空间的平均差,取消了平方,离群点的影响减弱.
3. 切比雪夫距离: $D(Q_i,Q_j)=\max_{i=1}^h{Q_{ik}-Q_{jk}}$
4. 余弦相似度: $D(S_i,S_j)=\cos(\vec{S_i},\vec{S_j})$
5. Jaccard: $Sim(a,b)=\frac{|a\bigcap b|}{|a\bigcup b|}=\frac{|a\bigcap b|}{|a\bigcap \bar{b}|+|\bar{a} \bigcap b|+|a\bigcap b|}$
等