曲线聚类_【第 45 期】如何用聚类模型 (kmeans) 做数据分析?

本文介绍了k-means算法原理,包括欧几里得距离、曼哈顿距离、Hamming距离和余弦距离等距离衡量方式。通过数据准备、数据建模和后续分析三个步骤,展示了如何使用k-means进行数据分析实战,强调了特征选择和标准化的重要性。
摘要由CSDN通过智能技术生成
9ee0c38459d363c3038eab2f54433ba3.png

正文开始~

k-means 属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。   聚类模型在数据分析当中的应用: 既可以作为一个单独过程,用于寻找数据内在规律,也可以作为分类等其他分析任务的前置探索 。 例如我们想探寻我们产品站内都有哪些社交行为群体,刚开始拍脑门想可能并不会很容易,这时候可以根据用户属性、行为对用户进行聚类,根据结果将每个簇定义为一类社交群体,基于这些类训练后续的分类模型,给用户打标签后进行个性化推荐、运营。 b756815eabba9aa1692bd762c4face42.png   k-means算法与距离 K-means聚类的目标,是将n个观测数据点按照一定标准划分到k个聚类中,数据点根据相似度划分。 每一个聚类有一个质心,质心是对聚类中所有点的位置求平均值得到的点。 每个观测点属于距离它最近的质心所代表的聚类。   模型最终会选择n个观测点到所属聚类质心 距离平方和(损失函数)最小的聚类方式作为模型输出。K-means聚类分析中,特征变量需要是 数值变量,以便于计算距离。   我们使用距离来测量两个样本的相似性,距离的实质是他将两个具有多维特征数据的样本的比较映射成一个数字,可以通过这个数字的大小来衡量距离。   几个常见距离计算方法:
  • 欧几里得距离-直线距离,不适合高维度数据,对某一维度大数值差异更加敏感;
  • 曼哈顿距离-也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和,只计算水平或垂直距离,对某一维度大数值差异不敏感;
  • Hamming距离-可用来测量含有分类值的向量之间的距离;
  • 余弦距离-通过计算两个向量的夹角余弦值来
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值