《谁说菜鸟不会数据分析》之探索性数据分析

最新推荐文章于 2023-06-05 13:10:35 发布

天地一沙鸥GW

最新推荐文章于 2023-06-05 13:10:35 发布

阅读量4.1k

点赞数 5

分类专栏：数据分析文章标签：数据分析探索性数据分析

本文链接：https://blog.csdn.net/weixin_40575956/article/details/80118187

版权

数据分析专栏收录该内容

18 篇文章 1 订阅

订阅专栏

探索性数据分析是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。

分类

探索性数据分析可分为以下4种：
* RFM分析
* 聚类分析
* 因子分析
* 对应分析

RFM分析

RFM分析是针对销售行为的一种分析方法，在SPSS中有对应的分析模块，叫做直销模块。其作用就是通过对客户行为的分析，筛选出具有高价值的客户。具体的方法简单来说就是选取几个指标，对指标进行评分，并赋予指标不同的权重，加权计算后得到每个客户的加权评分值，根据评分值确定客户的等级，进而制定具有针对性的营销策略，另外分析结果也能衡量客户价值和客户利润创收能力。

含义

R：Recency 表示客户最近一次交易时间的间隔。R越大，说明距离上一次交易时间越久。
F：Frequency 表示客户在最近一段时间内交易的次数，即频率。
M：Monetary 表示客户在最近一段时间内交易的金额。

原理

RFM分析的原理就会说有R、F和M三个指标构成一个三维立方图，在各自维度上分别用高和低两个分类（分类标准为这一指标的平均值）将立方图剖开，这样根据不同的分类组合，就形成了8种客户类型，即2的3次方。
简单说，就是算出每个指标的平均值，每个客户的分值高于平均值就赋予2，低于平均值就赋予1，每个客户每个指标就2个值，也就是有两个维度，三个指标每个指标2个维度，就组合成8个等级。

数据准备

RFM分析接受两种数据格式：交易数据和客户数据，建议使用交易数据格式进行分析。
因为交易数据可以整理为客户数据，而客户数据无法还原为交易数据。
交易数据：每次交易占一行，包括客户ID，交易日期和交易总额。
客户数据：每个客户占一行，包括客户ID、交易总金额、交易总次数和最近交易日期。

数据分析

1.SPSS直销模块一步步进行操作，其中输出选项卡全部勾选。
2.计算各指标评分平均值。【分析】-【描述统计】
3.各评分与评分值比较，小于平均值定义为1，高于平均值定义为2，这样就分成了2个维度。操作：【转换】-【重新编码为不同变量】-设置【旧值和新值】。
4.三个指标两个维度组合，分为8种。操作：【转换】-【计算变量】-【目标变量】（这样数据视图就多了一列客户类型）-【计算变量：if个案】
5.变量值改为标签。操作：【数据】-【定义变量属性】

聚类分析

定义：聚类分析就是按照个体特征对其分类，目的在于让同一类别的个体之间具有较高的相似度，而不同类别之间具有较大的差异性。
目的：研究人员可以根据不同类别特征有的放矢地进行分析，并制定出适合不同类别的解决方案。
聚类分析采用的指标：距离和相似系数
相似系数一般指相关系数
特点：
1.对聚类结果是未知的额，不同的居聚类分析方法可能得到不同的分类结果，或者相同的聚类方法但是分析的变量不同，也会得到不同的聚类结果。
2.对于聚类结果合理性判断比较主观，只要类别间相似或者类别间差异性都能得到合理的解释和判断，就认为聚类分析时可行的。

聚类分析步骤

确定需要参与聚类分析的变量
对数据进行标准化处理
选择聚类方法和类别个数
聚类结果解读

其中对数据进行标准化处理的原因是不同变量间的变量值的数量级别差异较大或者单位不统一。只有通过标准化处理，消除变量间量纲关系的影响，才能在同一标准下进行比较或者计算“距离”和“相关系数”等指标。

聚类方法

快速聚类（K-Means Cluster）

也称为K均值聚类。它是按照一定的方法选取一批聚类中心，让个案向最近的聚类中心点聚集形成初始分类，然后按照最近距离原则调整不合理的分类，直到分类合理为知。

系统聚类（Hierarchical Cluster）

也称为层次聚类，首先将参与聚类的每个个案（或者变量）各视为一类，然后根据两个类别之间的距离或者相似性逐步合并，直到所有的个案（或者变量）合并为一个大类。

二阶聚类（TwoStep Cluster）

也称为二步聚类。它是随着人工智能发展而发展起来的一种聚类方法。
整个聚类过程分为两个步骤，第一个步骤是预聚类，就是根据定义的最大聚类类别个数对个案进行初步聚类；第二个步骤是正式聚类，就是对第一步中的初步聚类结果进行再聚类并确定最终聚类结果，并且在这一步中，会根据一定的统计标准确定聚类的类别数。

SPSS分析与结果解读

三种聚类方法均在【分析】-【分类】菜单栏中。

快速聚类分析结果

表1：初始聚类中心
该聚类中心是随机选择的三个数据，所形成的初始分类，之后还会进行调整，聚类中心可能会发生变化。
表2：迭代历史记录
本次快速聚类分析一共迭代的次数。迭代的次数可以理解为每个类别与初始位置之间的距离变化情况。
表3：最终聚类中心
每一类中各变量都对应自己的数值，可以通过数值对比不同类别之间的差异，进而选择应对策略。
表4：每个聚类中的个案数目
仅为统计值。

分析完数据视图内最右侧新生成一个变量，变量值就是每个个案所属的类别。可以对每个类别中的个案进行分析，描述每个类别各个变零的平均值。

系统聚类分析简介

系统聚类分析与快速聚类分析不同之处：
1.不仅支持输入的单个分类数量，还指出输入分类数量的范围
2.支持生成聚类结果图。
3.具有多种分析方法

结果图：谱系图和冰柱图
谱系图也称树状图，以树状的形式展现个案被分类的过程，推荐选择。
冰柱图：以X形式显示全部类别或指定类别数的分类过程。

系统聚类分析提供了多种聚类方法，较常用的是【组间联接】和【瓦尔德法】，默认组间联接法。

【测量】方法
1.区间：适用于连续变量
2.计数：适用于连续或分类变量
3.二元：适用于0/1分类变量

【转换值】进行标准化处理，一般采用【Z得分】。

系统聚类分析结果解读

表1：个案处理摘要
表2：集中计划
即聚类过程，提供了详细的系统聚类分析步骤。
表3：聚类成员
数据视图内两变量
表4：谱系图
该图形能直观地表现聚类的全过程。

二阶聚类分析简介

该聚类方法非常智能，需要操作设置的参数较少。
智能主要体现在：
1.能够对连续变量和分类变量同时进行处理；
2.操作简单，无需提前指定类别数，二阶聚类会自动分析并输出最优聚类数。

二阶聚类分析结果解读

表1：自动聚类
还结果主要借由统计指标施瓦兹贝叶斯BIC帮助判断最佳分类数量。从统计学上讲，BIC越大，代表聚类效果越好。但实际应用中还需要考虑后三列的统计指标，即BIC变化量、BIC变化比率及距离测量比率。
判断一个好的聚类方案的依据是BIC的数值越小，同时BIC变化量的绝对值和距离测量比率数值越大，则说明聚类效果越好。

表2 聚类分布
包含各类的个案数量

表3 质心
反应数据分布分平均位置，可以理解为连续变量的集中趋势。

表4 频率表
表5 模型摘要和聚类质量
通过双击该结果可以进入【模型查看器】窗口，可以进一步进行分析。

聚类方法对比

因子分析

定义：通过研究变量间的相关系数矩阵，把关系错综复杂的多个变量归结成少数几个综合因子，并据此对变量进行分类的一种统计方法。由于归结出的因子个数少于原始变量的个数，但他们又包括原始变量的信息，这一分析方法也叫作降维。
目的：
1.探索结构：用较少的因子来概括相关度较高的多个因子。
2.简化数据：将原始变量转换为因子得分之后，是用因子得分进行其他分析，如聚类分析、回归分析等。
3.综合评价：通过每个因子得分算出综合得分，对分析对象进行综合评价。

概念
因子载荷（Factor Loading）
每个原始变量和每个因子之间的相关系数，它反映了变量对因子的重要性。
当有多个因子时，因子载荷将构成一个矩阵，称为因子载荷矩阵。

变量共同度（Communality）
每个变量所包含的信息能够被因子所解释的程度，取值范围介于0和1之间，取值越大，说明该变量能被因子解释的程度越高。

因子旋转（Rotation）
因子分析的结果需要每个因子都要有实际意义，有时，原始变量和因子之间的相关系数可能无法明确地表达出因子的含义，为了是这些相关系数更加显著，可以对因子载荷矩阵进行旋转，使原始变量与因子之间的关系更为突出，从而对因子的解释更加容易。

因子得分（Factor Score）
因子得分可以用来评价每个个案在每个因子上的分值，该分值包含了原始变量的信息，可以用于代替原始变量进行其他统计分析，比如回归分析，可以考虑将因子得分作为自变量，与对应的因变量进行回归。

因子分析步骤

1.判断数据是否适合进行因子分析
2.构造因子变量
3.利用因子旋转方法使因子更具有实际意义
4.计算每个个案因子得分

如何判断数据适合因子分析？

1.只适用于连续变量，不适用于分类变量
2.建议个案个数为变量个数的5倍以上
3.KMO检验统计量小于0.5不适合，0.7以上适合，0.8以上极其适合

SPSS操作步骤

1.【分析】-【降维】-【因子分析】
2.【描述】-勾选【KMO和巴特利特球形度检验】
3.【提取】-方法：【主成分】-勾选【碎石图】
4.【旋转】-选择【最大方差法】
5.【得分】-勾选【保存为变量】-选择【回归】方法
6.【选项】-勾选【按大小排序】和【排除小系数】-绝对值如下设置为0.4.

SPSS结果解读

表1 KMO和巴特利特检验
主要看KMO统计量，应大于0.5.
表2 公因子方差
即变量共同度，提取值应大于0.6.
表3 总方差解释
一般累计方差贡献率大于60% 就说明因子对变量的解释能力尚可。
表4 碎石图
可辅助判断最佳因子个数，通常选择曲线中较陡位置所对应的因子个数。
其实表3即可确定因子个数。表3中数据填满的成分个数即为因子个数。

确定因子个数的标准？

1.表3初始特征值总计大于1的因子个数
2.表3初始特征值累积达到一定水平（如60%）的因子个数
3.碎石图上处于较陡曲线上所对应的因子个数。

表5成分矩阵
旋转之间的因子载荷矩阵。其中有些变量在各个因子上的载荷比较接近，难以对因子进行明确定义，因此对因子解释和命名更有指导意义的是旋转后的成分矩阵。
表6旋转后的成分矩阵
通常选择该矩阵给分类后的因子进行命名。若数值为负责表示该变量与因子成反向关系。
表7 成分转换矩阵
表示旋转前因子载荷矩阵转换到旋转后的因子载荷矩阵需要相乘的矩阵系数。对结果解读实用性不高，可忽略。

如何通过因子得分进行综合评价？

计算综合评价得分，需要考虑每个因子的方差贡献率占总累计方差贡献率的比例，以此作为权重，进行加权计算。
方差贡献率为表3 总方差解释中旋转载荷平方和列中的累计百分数。

对应分析

对应分析实际上也是一种降维分析方法，不过是针对分类变量的。
主要用于研究分类变量构成的交叉表，以解释变量间的关系，并以交叉表的信息以图形的方式展现出来。可以揭示同一变量各个类别之间的差异，以及不同变量各个类别之间的对应关系。

对应分析原理与步骤

1.将两个分类变量做成交叉表，交叉表中每个单元格可以看做变量在相应类别上的对应点
2.对应分析会把变量及变量间的联系同时反映在一张图形上（通常是平面图形），使得联系密切的类别点集中，联系疏远的类别点较分散
3.通过观察对应图就能直观地把握变量与类别之间的联系

SPSS分析结果解读

表1 对应表
再现交叉表结果
表2 摘要
输出对应分析的统计量结果以及累计百分比。
该表中只需关注累计变零比例即可，若前两个纬度的累计惯量比例达到80%以上，则说明对应分析图的效果非常好，具有可读性。
表3 行/列点总览
主要提供了各类别在各维度上的得分，也是对应分析图中横纵坐标对应的数值，一级行列对行列之间的贡献大小。
对应分析图就是由本表中两个纬度的得分绘制。

最后一个为对应分析图

分析：
同一维度上，例如横轴上，同一变量的类别距离越近，说明在这个纬度上差异较小。例如，“外观稳重大气”和“外观时尚”对于参与品牌形象评价的用户来说，差异相对较小。
不同变量散点之间的距离越近，说明相关性越大。例如，“品牌T”和“技术领先”距离很近，说明用户认为品牌T属于技术领先、经常创新的品牌。

天地一沙鸥GW

关注

5
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
《谁说菜鸟不会数据分析》之探索性数据分析

探索性数据分析是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。分类探索性数据分析可分为以下4种： * RFM分析 * 聚类分析 * 因子分析 * 对应分析RFM分析RFM分析是针对销售行为的一种分析方法，在SPSS中有对应的分析模块，叫做直销模块。其作用就是通过对客户行为的分析，筛选出具有高价值的客户。具体的方法简单来说就是选取几个指标，对指标进行评分，...
复制链接

扫一扫