python使用k-means算法代码案例-数据挖掘-聚类分析(Python实现K-Means算法)

概念:

聚类分析(cluster analysis ):是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析,或者数值分类。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或者相似度将其划分成若干个组,划分的原则是组内距离最小化而组间(外部)距离最大化。聚类和分类的不同在于:聚类所要求划分的类是未知的。

聚类度量的方法:分距离和相似度来度量。

70wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==?

70wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==?

聚类研究分析的方法:

1.层次的方法(hierarchical method)

2.划分方法(partitioning method)

3.基于密度的方法(density-based method)DBSCAN

4.基于网格的方法(grid-based method)

5.基于模型的方法(model-based method)

70wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==?

?K-Means 算法:

?受离群点的影响较大,由于其迭代每次的中心点到全部样本点的距离和的平均值。

优点:

原理简单

速度快

对大数据集有比较好的伸缩性

缺点:

需要指定聚类 数量K

对异常值敏感

对初始值敏感

?以欧式距离来衡量距离大小,使用误差平方和(Sum of the SquaredError,SSE)作为聚类的目标函数:

70wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==?

k表示k个聚类中心,ci表示第几个中心,dist表示的是欧几里得距离

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值