PART 5 数据分析模型
总体要求:领会模型基本原理,数值模型操作流程,懂得模型应用场景,能够完成数据建模分析报告。
1、主成分分析
【领会】
主成分分析的计算步骤;
主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置。
【熟知】
适用于主成分分析的变量度量类型。
【应用】
在深入理解主成分的意义的基础之上,在遇到业务问题时,有能力决定是否使用主成分分析方法;
有能力决定何时采用相关系数计算方法和协方差矩阵计算方法;
有能力解释主成分得分的结果;
根据变量分布情况进行函数转换。
1.1、领会内容
1.1.1、主成分分析的计算步骤
主成分分析是一种常见的数据降维方法,其计算步骤如下:
- 数据标准化:将原始数据进行标准化处理,使得每个变量的均值为0,方差为1。
- 计算样本协方差矩阵或相关系数矩阵:根据样本数据计算协方差矩阵或相关系数矩阵。
- 特征值分解:对协方差矩阵或相关系数矩阵进行特征值分解,得到特征值和特征向量。
- 选择主成分:根据特征值的大小,选择前k个主成分。通常选取的主成分个数k可以根据累计贡献率和特征值大小来确定。
- 计算主成分:将原始数据映射到主成分上,得到新的数据集合,每个变量对应一个主成分。
- 解释主成分:根据主成分的特征向量,解释每个主成分代表的意义,理解数据降维后的含义。
1.1.2、主成分分析的基础内容
主成分分析(Principal Component Analysis,PCA)的假设和模型设置如下:
假设:
- 假设变量之间存在线性关系;
- 假设变量的方差不同;
- 假设各变量之间不存在完全的共线性(即变量之间存在一定程度的独立性);
- 假设数据符合正态分布或接近正态分布。
模型设置:
- 确定主成分的个数,通常通过特征值分析和累计方差贡献率分析来确定;
- 根据主成分个数,运用线性代数方法求解主成分;
- 利用主成分系数,计算每个样本在不同主成分上的得分;
- 分析主成分的解释力,并对主成分进行旋转和解释。
需要注意的是,PCA是一种基于样本协方差矩阵的无监督学习方法,因此对数据的可信度和有效性有一定要求。同时,PCA的结果也需要经过科学的解释和分析,才能得到有意义的结论和应用。
1.2、熟知内容
1.2.1、适用于主成分分析的变量度量类型
主成分分析可以适用于多种变量度量类型,包括:
- 定量变量(连续型):如身高、体重、收入等数值型变量。
- 定量二元变量:如是否吸烟、是否结婚等二元型数值变量。
- 定性变量(分类型):如性别、种族、婚姻状态等分类变量。
- 定序变量:如受教育程度、职位级别等顺序型分类变量。
需要注意的是,对于不同类型的变量,在进行主成分分析时需要使用不同的方法和技巧。同时,需要进行数据标准化和变量筛选等预处理工作,以确保分析结果的准确性和可靠性。
2、因子分析
【领会】
了解因子分析模型设置,只需要关注主成分法的计算步骤
【熟知】
适用于因子分析的变量度量类型,通过分析结果,选取合适的因子个数;
常用因子旋转的方法。
【应用】
在遇到业务问题时,有能力决定是否使用因子分析,还是使用主成分分析方法就可以了;
有能力根据原始变量在各因子上的权重明确每个因子的意义;
有能力对大量变量进行维度分析,分维度打分,并比较与专家打分(德尔菲法)的区别;
在聚类前对数据进行描述,发现理想的聚类方式和数量。
2.1、领会内容
2.1.1、因子分析模型
在因子分析模型中,需要设置以下几个参数:
- 因子数目:决定了模型中的因子个数,可以根据实际情况进行选择。
- 因子旋转方法:用于将因子旋转到一个更可解释的位置上,以便于进一步分析。常用的方法包括方差最大旋转法(VARIMAX)、斜交旋转法(OBLIMIN)等。
- 因子载荷估计方法:用于估计每个变量与因子之间的关系。常用的方法包括主成分分析、最大似然方法、加权最小二乘法等。
- 原始数据处理方法:如果原始数据存在缺失值、异常值等问题,需要先进行数据清洗和预处理。
- 因子的命名和解释:根据因子的载荷和变量的含义,对因子进行命名和解释,以便于后续分析。
以上参数设置需要根据具体研究问题和数据特点进行调整和选择。
2.2、熟知内容
2.2.1、因子分析的变量度量类型
因子分析适用于连续型数据,常用的度量类型包括:
- 定距变量:如温度、时间等,可进行加减运算,但没有绝对零点。
- 定比变量:如重量、长度等,具有绝对零点,可进行任何数学运算,包括乘除。
- 顺序变量:如评分、等级等,有顺序关系但没有固定的数值,通常可将其转化为数值。
- 名义变量:如性别、国籍等,表示分类,通常可将其转化为虚拟变量。
在选取合适的因子个数时,可以结合以下指标进行考虑:
- 原始变量的解释程度:因子数目越多,对原始变量的解释程度越高。但也要避免因子解释过多而过度拟合数据。
- 因子的简洁性:应选择能够较简洁地解释数据变异度的因子个数。
- 因子的稳定性:应选择具有稳定性的因子,即在多次分析中得到相似的因子结构.
- 因子的实际意义:应选择能够反映真实情况的因子,可结合领域知识和理论背景进行解释。
2.2.2、常用因子旋转的方法
因子旋转是因子分析中常用的一种方法,它可以帮助研究者更好地理解因子结构。常用的因子旋转方法包括:
- 方差最大旋转法(Varimax Rotation):这种方法旋转后的因子具有简单结构,即每个因子上只有少量的高载荷变量,其他变量的载荷较低。
- 均方根最小旋转法(Promax Rotation):这种方法旋转后的因子可以具有更为复杂的结构,但是计算量较大。
- 等比例旋转法(Equamax Rotation):这种方法旋转后的因子具有中等的简单结构,可以平衡Varimax和Promax旋转法的优缺点。
- 岭回归旋转法(Ridge Regression Rotation):这种方法旋转后的因子具有最小的共同因子方差,可以更好地解释共同因子之间的相关性。
以上这些方法都可以用于因子旋转,具体使用哪种方法,需要根据具体研究问题和数据特点进行选择。
3、回归分析
【领会】
线性回归的综合应用
【熟知】
明确线性回归的 6 个经典假设(线性模型、不存在共线性、残差期望为 0(无内生性)、同方差、正态性、随机抽样);
明确违反上述假设后出现的问题;
模型是否违反经典假设的检验方法与模型纠正的方法;
独立同分布的概念;
变量筛选方法;
离群值、指标计算方法;
明晰横截面和时间序列数据在回归建模上的差异。
【应用】
结合业务构建回归模型并且解释回归系数
根据业务场景与变量分布情况进行函数转换
解释变量为分类变量时的处理方法
区分预测性建模与解释性建模的关系
使用结果进行新样本预测
进行客户价值分析的基本步骤与注意事项
3.1、领会内容
3.1.1、线性回归的综合应用
线性回归是一种常见的机器学习算法,它可以被广泛应用于各种场景,例如:
- 房价预测:通过分析历史房价数据和房屋特征(例如地理位置、房屋面积、房间数量等),可以建立一个线性回归模型来预测未来房价。
- 销售预测:通过分析历史销售数据和市场特征(例如经济情况、竞争对手数量和市场份额等),可以建立一个线性回归模型来预测未来销售额。
- .财务预测:通过分析历史财务数据和市场特征(例如利润率、销售额等),可以建立一个线性回归模型来预测未来的财务表现。
- 医疗预测:通过分析患者的个人信息、病史和检查结果等数据,可以建立一个线性回归模型来预测患者的疾病风险和治疗效果等。
- 交通预测:通过分析历史交通数据和交通状况(例如拥堵程度、交通信号灯状况等),可以建立一个线性回归模型来预测未来交通情况,从而帮助规划交通路线和优化交通流量。
综上所述,线性回归具有广泛的应用场景,通过不断迭代和优化模型,可以使其拥有更高的准确率和预测能力。
3.2、熟知内容
3.2.1、线性回归
6 个经典假设:
- 线性模型假设:线性回归模型是基于假设因变量与自变量之间存在线性关系的。
- 不存在共线性(独立性)假设:自变量之间不存在高度相关性,即不存在共线性问题.
- 残差期望为 0(无内生性)假设:模型的残差项的期望值为 0,这意味着模型中的任何遗漏变量并不影响模型的预测能力,也就是说,没有内生性问题。
- 同方差假设:对于任何给定的自变量值,残差的方差相等,即残差具有同方差性。
- 正态性假设:残差符合正态分布,即误差是随机的,不会呈现任何系统性的模式。
- 随机抽样假设:观测数据是从一个总体中随机抽取的,即每个观测值对于总体是独立的。
违反上述假设后出现的问题:
- 线性性不满足时,模型的预测效果会显著降低。
- 独立性不满足时,可能出现估计量偏差(即变量之间存在强相关性)。
- 均值为零不满足时,模型的截距计算会出现偏差。
- 同方差性不满足时,会出现异方差问题(即随着自变量的变化,因变量的方差也会变化)。
- 正态性不满足时,模型在进行假设检验和置信区间估计时会出现偏差。
- 同方向性不满足时,模型的预测效果会显著降低。
模型是否违反经典假设的检验方法与模型纠正的方法:
- 线性性:可以通过图示法或F检验来检验,可以尝试添加二次项或对数项来修正。
- 独立性:可以通过相关系数矩阵或方差膨胀因子来检验,可以尝试通过主成分分析等方法来处理多重共线性。
- 均值为零:可以通过样本平均值来检验,可以尝试在模型中加入截距项来纠正。
- 同方差性:可以通过残差图或Goldfeld-Quandt检验来检验,可以尝试通过加权最小二乘法或使用泊松回归等方法进行纠正。
- 正态性:可以通过正态概率图或残差图来检验,可以尝试通过对数转换或Box-Cox变换来纠正。
- 同方向性:可以通过散点图来初步检验,可以尝试添加相反的自变量或进行交互项来纠正。
3.2.2、独立同分布
独立同分布是指对于两个或更多的随机变量,在它们之间不存在任何关联,且它们都来自同一种概率分布。
具体地说,如果存在两个随机变量X和Y,它们之间互不影响,也就是说,X的值的变化不会影响Y的概率分布,反之亦然,那么X和Y就是独立的。
此外,如果X和Y都来自于同一种概率分布,这就说明它们具有相同的概率密度函数或概率质量函数,即它们是同分布的。因此,当X和Y既是独立的,又具有相同的概率分布时,它们就是独立同分布的。
3.2.3、明晰横截面和时间序列数据在回归建模上的差异
横截面数据是在同一时间点上对样本进行的观察,而时间序列数据是在一段时间内对同一样本进行的观察。在回归建模中,这两种数据的差异表现在以下几个方面:
类别 | 横截面 | 时间序列数据 |
---|---|---|
变量选择 | 选择样本在同一时间点上的各项指标作为解释变量 | 考虑过去时间点的数据作为解释变量,例如前一期的变量值等。 |
模型结构 | 考虑独立的观察对象之间的关系 | 考虑时间维度上的相关性,并且需要考虑更复杂的模型结构,例如ARMA、ARIMA等。 |
数据平稳性 | 无需考虑 | 需要考虑数据的平稳性 |
总之,横截面数据和时间序列数据在回归建模上的差异主要表现在变量选择、模型结构和数据平稳性三个方面。在真实的数据分析中,需要了解数据的特点,并使用适当的方法进行建模。
3.3、应用内容
3.3.1、分类变量
当变量为分类变量时,处理方法通常包括以下几个方面:
- 查看分类变量的取值范围:分类变量通常包括不同的类别或者标签,需要先查看该变量的取值范围,以便后续分析。
- 统计每个分类变量的频数和频率:对于分类变量,我们需要了解每个类别的频数和频率,以衡量每个类别在样本中所占的比例。可以通过绘制频率分布表、柱状图等方式来展示。
- 进行分类变量的编码:在一些模型建立和分析中,需要使用分类变量进行分析,但是计算机往往不能直接处理分类变量,因此需要将其编码成数字形式。可以采用哑变量编码、标签编码等方法。
- 进行分类变量的特征工程:当变量为分类变量时,我们可以进行一些特征工程,例如对某些类别进行合并或删除,以提高变量的区分度和预测能力。
- 分析分类变量与其他变量之间的关系:可以通过交叉分析、卡方检验等方法,来了解分类变量和其他变量之间的关系,进一步探索分类变量对预测目标的影响。
3.3.2、区分预测性建模与解释性建模的关系
预测性建模和解释性建模是两个不同的概念,但它们之间存在一定的联系。
预测性建模通常是为了解决一个具体的问题或预测未来的趋势而创建的模型。例如,通过使用历史销售数据来预测未来的销售额,或使用股票价格数据来预测未来的市场趋势。预测性建模的目标是创建一个高准确性的模型,以便可以做出最佳的预测决策。
解释性建模则旨在理解模型中的关键因素和变量之间的相互作用。这种建模通常被用于研究学术或科学问题,以及在政策制定和决策制定方面进行决策。解释性建模的目标是创建一个能够清楚地解释模型的结果和结论的模型,以便可以帮助人们更好地理解数据和现象。
虽然预测性建模和解释性建模有不同的目标,但它们之间存在一定的联系。预测性建模通常需要对数据进行深入分析,以了解数据中的模式和关系。这种分析通常需要使用解释性建模的方法来解释数据。同样,解释性建模通常需要将模型用于实际问题中,从而需要进行预测性建模来预测实际情况下的结果。
3.3.3、客户价值分析
进行客户价值分析的基本步骤与注意事项,如下内容所述。
基本步骤:
- 定义研究目标:明确需要了解的问题和目标,例如客户需求、满意度、忠诚度等。
- 确定研究方法:根据研究目标,选择适当的研究方法,例如问卷调查、深度访谈、焦点小组讨论等。
- 客户分群:将客户根据行为、偏好、价值等因素划分为不同的群体,以便更好地了解其需求和特点。
- 客户细分:在每个客户群体中进一步细分客户,如购买频率、消费金额、购买渠道等,以便更好地了解其需求和行为。
- 进行调查分析:通过调查和分析客户数据,了解客户的需求、满意度、期望等,发现客户痛点和机会,为提高客户价值提供依据。
- 制定客户价值策略:根据客户价值分析结果,制定相应的策略,如提高服务质量、增加产品种类、优化营销策略等,以提升客户价值。
注意事项:
- 研究目标要明确,研究方法要科学、有效。
- 客户分群和细分要根据客户行为和价值确定,且应严格保密。
- 调查分析要保证数据可靠性和客观性,避免因主观因素而偏离实际情况。
- 制定策略时要有重点、有针对性,充分考虑客户需求和市场环境。
- 在实施方案时,要注意跟踪和评估效果,及时调整策略和方法。
4、分类分析
【领会】
卡方检验计算公式
二分类逻辑回归的计算公式
【熟知】
分类变量是否存在相关关系的描述方法和检验方法,涉及列联表分析、卡方检验 似
然比与 Logit 转换
二分类逻辑回归模型构建与变量筛选
模型评估的方法,涉及混淆矩阵、ROC 曲线
【应用】
结合业务构建回归模型并且解释回归系数
根据业务场景与变量分布情况进行函数转换
使用结果进行新样本预测
逻辑回归与多元线性回归模型的结合应用
进行客户流失预测、信用评级、精准营销等模型的基本步骤与注意事项
4.1、领会内容
4.1.1、卡方检验计算公式
卡方检验的计算公式如下:
X² = Σ [ (Oi - Ei)² / Ei ]
其中, X²为卡方值; Oi为实际观察值; Ei为期望值,由样本数据计算而来; Σ为求和符号。
4.1.2、二分类逻辑回归的计算公式
二分类逻辑回归模型的数学表达式为:
h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+e−θTx1
其中, h θ ( x ) h_\theta(x) hθ(x) 表示预测的概率, g ( z ) g(z) g(z) 是逻辑函数(也称为sigmoid函数), x x x 是输入特征向量, θ \theta θ 是模型参数向量。
预测结果为正类的概率可以通过将 h θ ( x ) h_\theta(x) hθ(x) 带入阈值函数进行判断,如:
y = { 1 , h θ ( x ) ≥ 0.5 0 , h θ ( x ) < 0.5 y = \begin{cases} 1, & h_\theta(x) \geq 0.5 \ 0, & h_\theta(x) < 0.5 \end{cases} y={ 1,h