Kmeans
数据小斑马
浙大硕士毕业,互联网数据分析师,喜欢深入业务,也喜欢挖掘技术,希望和大家可以多多交流
展开
-
Kmeans聚类①——数据标准化&归一化&正则化
在进行机器学习之前,经常需要对训练数据进行标准化/归一化/正则化,为什么呢?**1)去除量纲的影响,将有量纲的数值变成无量纲的纯数值;2)是去除各特征之间数值差异过大的问题,比如一个向量(uv:10000, rate:0.03,money: 20),如果要与其它向量一起计算欧氏距离或者余弦相似度时,会向uv倾斜非常严重,导致其余2个特征对模型的贡献度非常低3)提升训练的速度,防止过拟合一、...原创 2019-06-14 20:55:34 · 37443 阅读 · 7 评论 -
Kmeans聚类②——Sklearn数据生成器(make_blobs,make_classification,make_circles,make_moons)
在学习机器学习中,经常会遇到找不到合适的数据集的情况,后来才发现我们可以自己批量生成各种各样的数据,简直不要太惊喜!这里整理了一些常用的生成数据的方法一、Make_blobs(聚类生成器)n_samples:待生成的样本的总数n_features:每个样本的特征数,默认为2centers: 要生成的样本中心(类别)数,默认为3cluster_std: 每个类别的方差,默认为1shuff...原创 2019-06-14 22:22:30 · 5345 阅读 · 0 评论 -
Kmeans聚类③——Kmeans聚类原理&轮廓系数&Sklearn实现
Kmeans是我接触的第一个机器学习算法,原理简单,却很实用,只要一想到聚类,基本上没有Kmeans解决不了的问题(此处略有夸张~~),本篇整理了Kmeans聚类原理,评判标准以及Sklearn实现过程一、Kmeans聚类原理用大白话来说,Kmeans就是把待分类的样本向量化,投射到坐标轴上,先定分几个类(假设3类),随机找3个点做为初始聚类中心,分别计算每个点到3个中心的距离,哪个最近,这个...原创 2019-06-15 10:40:31 · 21268 阅读 · 1 评论 -
Kmeans聚类实例④——电商用户质量聚类分析(RFM)
聚类通常分为以下步骤:① 业务提出需求② 根据业务需求,找到核心的指标。有现成的模型的话(如RFM),可以直接按模型的指标,如果没有,先罗列出比较重要的指标③ 从数据库用SQL取出数据④ 对数据进行清洗,标准化/归一化/正则化⑤ 聚类,如果是现成的模型,则直接聚类即可,如果是拟定的指标,则对各指标进行相关性验证,剔除掉相关性较高的指标,再聚类⑥ 根据聚类结果,结合业务场景提供建议本篇...原创 2019-06-15 18:59:38 · 25261 阅读 · 14 评论