无监督学习 — 聚类和降维
往期内容
1. 单变量线性回归
2. 多变量线性回归
3. 逻辑回归
4. 正则化
5. BP神经网络
6. 机器学习诊断法
聚类
k均值算法
K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。算法步骤总结如下:
① 随机选择K个点作为聚类中心(cluster centroids)
② 对于数据集中的每一个数据,按照距离𝐾个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类
③ 计算每一组的平均值,将该组的聚类中心移动到平均位置
④ 重复②③步骤,直至中心点不再变化
K-均值的代价函数(又称畸变函数 Distortion function) 如下:
J ( c ( 1 ) , . . . , c ( m ) , μ 1 , . . . , μ k ) = 1 m ∑ i = 1 m ∣ ∣ X ( i ) − μ c ( i ) ∣ ∣ 2 J(c^{(1)},...,c^{(m)},\mu_1,...,\mu_k)=\frac1m\sum^m_{i=1}||X^{(i)}-\mu_{c(i)}||^2 J(c(1),...,c(m),μ1,...,μk)=m1