不必时时怀念我,也不要指望我回来,我离开以后,你们就是我,
Vive le peuple!
无监督学习的概念
无监督学习从无标记的训练数据中推断结论。最典型的无监督学习就是聚类分析,它可以在探索性数据分析阶段用于发现隐藏的模式或者对数据进行分组。一句话:给定数据,寻找隐藏的结构。
例:给你一组无标记点,使用无监督算法进行分类
K-means算法
算法过程
在图中随机取多个点,这几个点就是聚类中心(有多少个点取决于你想分多少组数据)
现在进行分类,如果某点离某个聚类中心最近,那么这个点就属于那个聚类中心
然后我们开始移动聚类中心
新的聚类中心的坐标是属于这个聚类中心坐标的平均值
如此反复,直到完成为止
K-means算法的伪代码
代价函数
也就是每个样本到聚类中心的距离的平方的平均值
随机初始化
首先,聚类数量应该小于样本数量
之后随机从样本中抽取两个点作为聚类中心
但随机抽取就可能会出现以下的情况
则我们需要多次进行k-means算法,取最佳结果