前面讲到的线性回归和逻辑回归的数据样本都是确定了Y值的,通俗一点来讲就是:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。
所以线性回归和逻辑回归都是监督学习
今天要讲的聚类分析是无监督学习,无监督学习就是:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。
具体区别可以参考:
CSDN-专业IT技术社区-登录blog.csdn.net下面分享一个聚类分析模型对摩拜单车用户进行分类的案例
数据链接:
https://pan.baidu.com/s/1WGJY-MEE13yj4MEpGJAryApan.baidu.com提取码:9jpj
问题:基于所给数据,利用Python数据进行聚类分析,对摩拜单车的使用者进行分群。
Step1.数据预处理
1.删除对业务分析没有实际作用的变量
2.删除空值
3.删除与实际情况不符的异常值,例如过大的年龄
4.将类别型变量转换成数字型变量