立即学习:https://edu.csdn.net/course/play/27362/368000?utm_source=blogtoedu
在已知结果类别的时候使用分类分析方法。
当未知结果类别,我们可以去根据对象的属性聚类推测可能的结果类别
K-means
以最小误差函数的值为最小为目标,按照预先设定的划分类别数量,采用距离作为相似性的评价指标,认为两个对象距离越近,相似度越大。
计算步骤:
1从样本选取k个对象为样本中心
2分别计算样本到聚类中心的距离,进行分配
3所有对象分配好,计算误差平方和SSE
4重新选择样本中心,计算新的误差平方和sse
5与上次作比较找到误差平方和较小得分类结果
6当聚类中心不发生变化,停止并输出聚类结果
SSE计算方法:
距离计算方法:物理距离:欧几里得距离
曼哈顿距离:所有坐标差得绝对值和
聚类质量评估方法:
误差平方和SSE作为度量聚类质量得目标函数。
每个点到聚类中心的距离的平方和
聚类不是目标,只是处理
之后对聚类结果进行处理
:1各分群的特点?
:2对不同分区可采用的处理措施?
k-中心点
多层次聚类
已知类别选择分类:
未知类别选择聚类: