聚类分析在用户行为中的实例_聚类分析的简单案例

最新推荐文章于 2024-07-13 12:59:21 发布

weixin_39640573

最新推荐文章于 2024-07-13 12:59:21 发布

阅读量4.2k

点赞数

文章标签：聚类分析在用户行为中的实例

本文链接：https://blog.csdn.net/weixin_39640573/article/details/111728514

版权

本文介绍了聚类分析的基本概念，通过SAS聚类分析棒球运动员案例，详细展示了聚类过程和结果解释。聚类分析在商业上用于市场细分，例如在汽车销售案例中，通过对车型进行聚类，帮助企业定位市场并制定营销策略。

摘要由CSDN通过智能技术生成

基本概念

聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组，而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同，处于不同聚类中的实例彼此不同。聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。

通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的数据成员进行分类组织的过程。因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。在聚类的相关文献中，一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来描述。同时，它有时也被称作数据点(Data Point)，因为我们可以用r 维空间的一个点来表示数据实例，其中r 表示数据的属性个数。下图显示了一个二维数据集聚类过程，从该图中可以清楚地看到数据聚类过程。虽然通过目测可以十分清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断增加，就很难通过目测来观察甚至是不可能。

SAS聚类分析案例

1 问题背景

考虑下面案例，一个棒球管理员希望根据队员们的兴趣相似性将他们进行分组。显然，在该例子中，没有响应变量。管理者希望能够方便地识别出队员的分组情况。同时，他也希望了解不同组之间队员之间的差异性。

该案例的数据集是在SAMPSIO库中的DMABASE数据集。下面是数据集中的主要的变量的描述信息：

在这个案例中，设置TEAM，POSITION，LEAGUE，DIVISION和SALARY变量的模型角色为rejected，设置SALARY变量的模型角色为rejected是由于它的信息已经存储在LOGSALAR中。在聚类分析和自组织映射图中是不需要目标变量的。如果需要在一个目标变量上识别分组，可以考虑预测建模技术或者定义一个分类目标。

2 聚类方法概述

聚类分析经常和有监督分类相混淆，有监督分类是为定义的分类响应变量预测分组或者类别关系。而聚类分析，从另一方面考虑，它是一种无监督分类技术。它能够在所有输入变量的基础上识别出数据集中的分组和类别信息。这些组、簇，赋予不同的数字。然而，聚类数目不能用来评价类别之间的近似关系。自组织映射图尝试创建聚类ÿ

最低0.47元/天解锁文章

weixin_39640573

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫