聚类:
分类算法回归算法属于监督学习
非监督学习(无监督学习)
数据集合:没有目标值
聚类算法:
特征值
根据样本的相似度,把样本聚成簇
使用不同的聚类准则(相似度指标),产生的聚类结果不同。
应用:
用户画像
图像分割(图像的RDB三元素不同来对图像进行聚类)
聚类算法api初步使用:
kmeans算法 k平均聚类算法
sklearn.cluster.KMeans(n_clusters=8)
.fit(x) --> 先去拿咱们所有的数据去根据相似度聚类
.predict(x) --> 然后在根据训练的结果得知聚类的结果
.fit_predict(x) --> 由于咱们的参数一致,则合并的偷懒方法
聚类算法实现流程
k-means 算法
k: 打算聚成的簇数(中心质点的数目)
means: 同一簇中的所有点到中心质点的距离的平均值(越小越好)
k-means聚类步骤:
1 样本之中随机选k个点当作是中心质点(k:聚类的簇数)
2 其他的所有点计算离哪个中心点近,就是这个中心点所代表的这一簇
3 根据每一簇的样本求出新的中心点
4 第2步第3步重复迭代,直到中心点不动为止(达到完美的聚类效果)
###模型评估
1 误差平方和