KNN与Kmeans
KNN的主要思想:knn主要用于给一个新的数据打标签。假设已知样本都有一个label,label有k个总类。对于新样本,计算其到其他所有样本的欧式距离,并对这些距离进行排序。选择距离最小的前k个样本,取这些样本中频率最高的label作为新样本的label。
KNN的特点:没有显示的学习过程
Kmeans的主要思想:kmeans属于聚类,将没有标签的样本聚成k个类。初始状态下,任意选择k个点作为k个聚类的中心,对k个点中的每个点,计算到其距离最近的k个点,计算这k个点的中心,作为当前聚类的新的中心。针对k个新的聚类中心重复以上的操作。
Kmeans的特点:体现了EM算法的思想。
Kmeans的缺陷:聚类中心的个数K需要事先人为给出,不同的初始聚类中心可能导致完全不同的聚类结果。
KNN和Kmeans的区别:KNN是有标签的,属于分类问题;Kmeans是无标签的,属于聚类问题。
还有许多的细节要补充,比如EM与Kmeans之间的关系等等,慢慢补充。