对于K(k<样本量的)均值聚类,一般参数的自定义主要有两个,一个是聚类中心初始位置的选择,二是K值的选择
优化目标:每个样本点到该点聚类中心的平方的累加
解决聚类中心的初始化问题:
随机挑选样本点作为聚类中心,这个过程重复50-1000次,选出J值最低的(通常K值为2-10的时候该方法比较有效)。
解决K值问题,肘部法:
尝试不同的K(K值通常为3-10比较好)值,算出J值,选取拐点出的K值
对于K(k<样本量的)均值聚类,一般参数的自定义主要有两个,一个是聚类中心初始位置的选择,二是K值的选择
优化目标:每个样本点到该点聚类中心的平方的累加
解决聚类中心的初始化问题:
随机挑选样本点作为聚类中心,这个过程重复50-1000次,选出J值最低的(通常K值为2-10的时候该方法比较有效)。
解决K值问题,肘部法:
尝试不同的K(K值通常为3-10比较好)值,算出J值,选取拐点出的K值