一、聚类问题
1. 概述
聚类(cluster)与分类(class)问题不同,聚类是属于无监督学习模型,而分类属于有监督学习。聚类使用一些算法把样本分为N个群落,群落内部相似度较高,群落之间相似度较低。在机器学习中,通常采用“距离”来度量样本间的相似度,距离越小,相似度越高;距离越大,相似度越低.
1)相似度度量方式
① 欧氏距离
相似度使用欧氏距离来进行度量. 坐标轴上两点 x 1 , x 2 x_1, x_2 x1,x2之间的欧式距离可以表示为:
∣ x 1 − x 2 ∣ = ( x 1 − x 2 ) 2 |x_1-x_2| = \sqrt{(x_1-x_2)^2} ∣x1−x2∣=(x1−x2)2
平面坐标中两点 ( x 1 , y 1 ) , ( x 2 , y 2 ) (x_1, y_1), (x_2, y_2) (x1,y1),(x2,y2)欧式距离可表示为:
∣ ( x 1 , y 1 ) − ( x 2 , y 2 ) ∣ = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 |(x_1,y_1)-(x_2, y_2)| = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2} ∣(x1,y1)−(x2,y2)∣=(x1−x2)2+(y1−y2)2
三维坐标系中 ( x 1 , y 1 , z 1 ) , ( x 2 , y 2 , z 2 ) (x_1, y_1, z_1), (x_2, y_2, z_2) (x1,y1,z1),(x2,y2,z2)欧式距离可表示为:
∣ ( x 1 , y 1 , z 1 ) , ( x 2 , y 2 , z 2 ) ∣ = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 |(x_1, y_1, z_1),(x_2, y_2, z_2)| = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} ∣(x1,y1,z1),