CDA 2级考试大纲梳理

PART 1 数据采集与处理(9%)

1. 数据采集方法(1%)

(1)概率抽样方法

按抽取方式的不同可以分为重复抽样和不重复抽样,常采用不重复抽样方法。当总体数量较大且抽样数量较少时,我们首选不重复抽样。

①系统抽样:先抽取一个单位作为初始单位,然后确定其他样本单位

②多阶段抽样:按照从大到小顺序进行抽样

③分层抽样:先按照年龄等分层再抽样

④简单随机抽样:不加任何限制从总体抽样

(2)非概率抽样方法

(3)计算简单随机抽样所需的样本量

n= [z^2 * p * (1-p)] / e^2

其中,n表示样本容量,z表示所选的置信水平对应的Z分数(例如,95%的置信水平对应的Z分数为1.96),p表示样本中所关注事件的比例估计值,e表示所容忍的误差率。

(4)误差

按照形成原因的不同,一般可将误差分为抽样误差和非抽样误差两大类。

(1)抽样误差是在用样本统计量推断总体参数时的误差,属于一种代表性误差,抽样误差会随着样本量的增大而减少。

(2)非抽样误差不是由抽样引起的,误差不随样本量的增大而降低。

(5)一手数据采集中的概率抽样与非概率抽样的区别与优缺点

  • 概率抽样能估算抽样误差,调查结果可以用来推断总体,一般费用较高。更为严格。
  • 非概率抽样简单易行、成本低、省时间,无法控制和客观测量样本地代表性,因此不具有推论总体地性质。

2. 市场调研和数据录入(3%)

(1)市场调研的基本步骤

  • 提出问题、理论推演、收集材料、构建模型、归因分析
  • 目标设定-调研前地准备-调研-数据处理与分析-拟写调查报告
  • 完整的市场调研分为案头研究、定性访谈和定量调研三个阶段。
  • 深度访问是一对一访问的形式,通常采用非概率抽样的方式,包括判断抽样、定额抽样和滚雪球抽样等。
  • 焦点小组座谈会主要应用于调研中期。

(2)调查问卷设计

分为结构化问卷和非结构化问卷

  • a.问卷设计要求

    具体性、单一性、通俗性、准确性、客观性、非否定性

  • b.提问题的结构遵循要点

    • 按问题的类别、性质排序
    • 按问题的复杂程度进行排列,先易后难
    • 按问题的时间顺序排列
    • 降低阅读的复杂度。
  • c.问卷需要包括的内容

    调研对象准入问题;调研质量控制问题;产品或服务相关属性的问题;调研对象自身的问题;调研对象产品购买偏好的问题;用于特殊目的的问题

  • d.注意

    • 是非题、选择题、顺位题是最常见问题,赋值题和核对题对应的分析方法是多维尺度分析、对应分析等方法。
    • 问卷的设计方式直接决定了访问是否可以直接获得真实有用的调研对象的信息。

3. 数据探索与可视化(2%)

  • 【领会】

    数据探索的目的与意义

    常用数据可视化工具软件(EXCEL BI、SPSS、PYTHON 等)

  • 【熟知】

    数据探索与数据预处理之间的关系

    数据探索常用数据描述方法:集中趋势分析、离中趋势分析、数据分布关系、图分析

    数据探索常用数理统计方法:假设检验、方差检验、相关分析、回归分析、因子分析

  • 【应用】

    能够通过使用数据可视化工具(EXCEL BI、SPSS、PYTHON 等)来完成相关数据分析项目的数据探索任务。(说明:考试中不会考核该部分工具和软件的使用方法)。

4. 数据预处理方法(3%)

数据预处理的基本步骤

  • (1)数据集成(不同数据源的整合)、

  • (2)数据探索

  • (3)数据变换(标准化)

    • 分类型变量概化处理
      • 样本合并,将占比少的水平直接合并为一个大类。
      • 事实合并,根据每个水平内被解释变量的均值、P值、Logit值大小合并。
      • 基于算法的合并,与分箱法结合使用
    • 连续型变量分布形态转换
      • 百分位秩。把变量从小到大排序,然后依次赋予序列号,最后用总的样本量除以序列号,值域为【1,100】
      • Tukey正太分布打分。
      • 变量取自然对数。
      • 非对称变量在聚类分析汇总选用1和2比较多,在回归分析中3多
    • 变量降维:分为主成分分析、因子分析和变量聚类等方法。
    • WoE转换:等深分箱(每个箱子样本量一样)和等宽分箱(每个分箱的取值一致)
  • (4)数据归约(维度归约技术、数值归约技术)

数据清洗

  • (1)识别或除去异常值(单变量根据中心标准化值,多变量使用快速聚类)

    • NumericOutlier数字异常值、DBSCA聚类技术、IsolationForest孤立森林、百分数法
    • Z-score:将数据减去均值,并除以标准差,表示样本偏离平均水平程度
    • 箱线图、散点图、学生化残差指标
    • 连续型数据变量利用盒须图、散点图等进行协同分析,可以方便的发现连续型变量是否存在疑似离群值,也可以用平均值直接计算,平均值+-n倍标准差之外的数据(SR)被视为离群值。|SR| >2 用于观察值较少的数据集,|SR|>3用于观察值较多的数据集。
    • 连续型数据变量利用四分位数法:IQR=Q3-Q1 Q1-1.5IQR~Q3+1.5IQR
  • (2)填补遗漏的数据值

    • 数据的缺失
      • 分为解释(X)变量数据的缺失与被解释(Y)变量数据的缺失。数据集中不含缺失值的变量(属性)被称为完全变量,数据集中含有缺失值的变量被称为不完全变量。
      • 完全随机缺失:数据的缺失与不完全变量及完全变量均无关。
      • 随机缺失:数据的缺失仅依赖完全变量
      • 非随机、不可忽略缺失:不完全变量中数据的缺失依赖不完全变量本身,这种缺失是不可忽略的,往往会造成有偏差的样本估计。
    • 缺失值的处理方式
      • 主要有删除法和插补法。删除法主要应用于Y变量数据缺失的情况,即直接删除Y缺失的样本。如果X变量数据有缺失,则可以采用插补法进行修复。而插补法分为单一插补法、多重插补法和截断数据处理。
      • 可以直接删除离群值样本,也可以使用盖帽法、分箱法、WoE法等进行处理;缺失值不会用众数填补处理
      • 盖帽法是将某连续型变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值,即盖帽处理。
    • 分析每个变量缺失情况时需要遵循的原则:
      • <20%,连续型变量一般使用均值或中位数填补。分类型变量可以将缺失部分单算一类,也可以用众数填补。
      • 20%~80%,同上
      • 80%。生成指示哑变量,不使用原数据。

  • (3)平滑有噪声数据(移动平均)

  • (4)注意

    • 离群值和错误值在概念上很容易区分,但是在实际操作中针对每个样本的数据就很难区分,主要原因是识别这两类问题使用的分析手段是相同的。
    • 麦肯锡问题的三大类型:恢复原状型、追求理想型、防范潜在型

PART 2 指标体系(3%)

1. 指标标准

  • 对业务指标所涉及的指标项的统一定义和管理,主要是口径(统计维度、计算方法、分析规则)

2. 指标体系的定义和意义

(1)指标体系定义

  • 从不同维度梳理业务,把零散的指标有系统地组织起来,形成一组指标

(2)指标体系意义

  • 监控业务情况
  • 通过拆解指标寻找当前问题
  • 评估业务可改进的地方,找出下一步工作的方向

3. 如何构建指标库

(1)明确部门KPI,找到一级指标

(2)了解业务运营情况,找到二级指标

(3)梳理业务流程,找到三级指标

(4)通过报表监控指标,不断更新指标体系

PART 3 数据治理与数据模型管理(6%)

1、数据治理

(1)数据治理的驱动因素

  • 内部发展:如何在精准营销、风险控制、决策支持、产品定价、绩效考核等方面得到准确、及时、完整的数据支持,要重点考虑。
  • 外部驱动:数据管理、数据质量、数据价值

(2)数据治理、数据管理、数据应用的概念

  • 数据治理:以制度为手段,有效控制和规范数据管理;
  • 数据管理:建立完整的数据管控体系;
  • 数据应用:支持高层决策的绩效评估和预测分析,为业务创新提供趋势洞察和商业模拟。

(3)数据治理域、数据管理域、数据应用域各自包含的内容及工作

  • 数据治理域
    • 组织架构与职责:应建立最高决策机构;
    • 管理流程与管理制度:数据质量规则管理流程、数据质量监控及清洗流程、数据质量源头控制流程;数据管理工作的政策、制度、细则以及考核。
    • 步骤:给数据治理一个定位;明确数据应用方向;多层级全方位进行数据治理;
  • 数据管理域
    • 元数据管理
      • 理清元数据之间的关系和脉络,规范元数据设计;包括元数据的获取、存储、维护、存储、质量管理等。
    • 主数据管理
      • 从多部门中整合最核心的、最需要共享的数据,集中清洗。
    • 数据模型管理
      • 数据治理的关键;包括概念数据模型、逻辑数据模型、物理数据模型。
    • 数据标准管理
      • 基础类数据、分析类数据、其他类数据(特有数据)
    • 数据质量管理
      • 绝对质量:正确性、完整性、一致性;
      • 过程质量:使用质量、存储质量、传输质量
    • 数据安全管理
      • 数据在保持、使用、交换过程中的安全问题
    • 数据生命周期管理
      • 数据生成及传输:保障数据生成的准确性和完整性;传输保密;
      • 数据存储:保密、完整、可用
      • 数据处理及应用
      • 数据销毁
    • 数据服务管理:研究如何利用历史数据,分析并优化业务流程。
  • 数据应用域
    • 监管报表
    • 精细化运营
    • 产品创新应用

(4)数据管理视角数据分类:元数据、主数据、交易数据

  • 元数据:描述数据定义和属性
  • 主数据:关于业务实体的数据,比如人、物
  • 交易数据:业务运营过程中的事件
  • 统计分析数据:指标
  • 参考数据:制定可参考国际标准、行业标准、公司内部标准

(5)数据质量要求

  • 绝对质量:正确性、完整性、一致性;
  • 过程质量:使用质量、存储质量、传输质量

2、数据模型管理

(1)数据和信息的概念

  • 数据:记载下来的都是数据,数据是对客观事务的记录
  • 信息:带有业务含义的数据
  • 知识:基于信息对模式、趋势的识别、解释、假设和推理

(2)数据模型层次分类:概念、逻辑、物理模型

  • 概念模型(CDM):描述预设范围内的业务需求
  • 逻辑模型(LDM):详细的业务解决方案
  • 物理模型(PDM):详细的技术解决方案

(3)数据库范式的概念

(4)数据仓库的特征

  • 面向主题:数仓内的信息是按照主题划分的,业务系统是按业务功能划分。
  • 数据集成:数仓中的信息是经过一系列的加工、整理、汇总,消除数据源中的不一致性形成的。
  • 数据相对稳定:数据进入数仓后,很少修改,基本为查询。
  • 数据随时间变化:数仓在数据集成式一般使用拉链表的形式,每天的数据都存下来。

(5)数据集市

数据集市是按照不同的业务需求对数仓中的数据进行进一步的提取和整合

(6)ETL过程

  • 提取extract、清洗cleaning、转换transform、加载load
  • 从数据源提取所需要的数据,经过清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。
  • 数据仓库中的数据已经消除了源数据中的不一致性,因此数仓中的信息是关于整个企业的一致的全局信息,数据加工并不是都在数据集市中完成

(7)关系模型与维度模型的使用场景

PART 4 标签体系与用户画像(5%)

1、标签体系设计原理

(1)区分用户标签和业务指标的概念

  • 业务指标
    • 从业务宏观层面分析并制定的关键业绩指标
    • 概念:用来定义、评价、描述特定事物的一种标准或方法
    • 属性和特征:注重对时间流程的描述,注重与宏观业务结合分析
    • 应用场景:宏观,涉及战略、管理、运营
  • 用户标签
    • 微观个体层面分析并制定一系列反应用户属性的关键词;
    • 概念:人为设定的,根据业务需求对目标对象运用一定的算法得到的特征标识;
    • 属性和特征:更微观、更有深度,便于用户洞察。
    • 应用场景:微观,用户运营
    • 指标一般可以量化,标签一般不可以量化
    • 用户标签虽然计算复杂,但是在实际应用时访问效率还是很高的
  • EDIT模型
    • 探索Exploration:利用基于KPI逐级分解构建的精益指标体系,实现可视化的业务运营监控看板,这个看板支持治理、管理、运营3个层面;分析目前是不是有问题。
    • 诊断Diagnosis
      • 宏观和微观定性的外部因素:国家政策、外部需求、运营是否有变化等。
      • 内部因素:近期是否有内部举行的市场活动。
      • 定量分析:画像分群、趋势维度、漏斗洞察、行为轨迹和留存分析
    • 指导Instruction:策略优化
    • 工具Tool:指标库>用户标签、产品标签和文档标签>策略优化

(2)精准营销的概念

根据消费意愿、消费能力精准识别消费目标群体

(3)消费者决策进程

确认需要-信息收集-方案评估-购买决策-购后行为(事后评价)

(4)用户分群发展历程

  • 制定业务目标:OSM目标策略度量模型;KPI;OKR。
  • 北极星指标
  • 拆解北极星指标
  • 拆解的北极星指标分层:战略层面;管理层面;运营层面;操作层面

(5)分层标签和分群标签

(6)用户标签和用户画像的关系

(7)马斯洛需求层次理论

生理-安全-归属-尊重-自我实现

2、标签的加工方式

(1)标签的分类

  • 按数据类型:属性标签、状态标签、协议标签、行为标签、需求标签
  • 时态角度:静态数据、动态数据(时点)、动态数据(时间段)
  • 加工角度:基础标签、统计标签、模型标签(规则类、算法类、综合应用类)
  • 统计角度:事实类、规则类、场景类

(2)基础、统计、模型标签

  • 基础标签:用户的原生属性或派生属性
  • 统计标签:对交易数据汇总后产生的标签
  • 模型标签:根据业务需求建立算法模型
    • 规则类:如基于RFM模型打出来的五星级荣耀客户
    • 算法类:根据现有数据对新的用户打标签
    • 综合应用类:前两种结合业务知识

3、用户画像

(1)细分市场和STP模型

  • 细分市场segmentation:利用可测量、可盈利、可进入、可区分、相对稳定衡量细分市场
  • 选择目标市场Targeting:根据每个细分市场确定市场营销策略
  • 市场定位Positioning:决定产品在目标人群中占据什么位置

(2)用户画像的概念

通过5W1H法描述清楚用户问题,帮助营销或风控人员对用户进行洞察

(3)标签在数据科学的作用

  • 数据科学的过程:数据到特征、知识、最后到产出决策和行动的过程
  • 标签:对分析对象的洞察,属于知识的一部分

(4)用户细分的方法

  • 层级细分
  • 用户群体细分
  • 双重细分:首先,按照资产规模和贡献潜力值等战略维度细分,用来确定资源分配、接触频率和渠道;其次,在每个战略细分内用户群体细分。
  • 先进细分:1VS1制定方案

(5)用户分群的精准营销

做营销活动时,将个人标签与产品画像进行营销匹配

(6)用户画像的准确性验证

  • 事中:抽样验证、模型验证、交叉验证
  • 事后(后续使用中验证):AB测试

4、感知型企业

Untitled

把企业分为5个不同的节点,分别是敏捷分析阶段、行为数据阶段、协同思维阶段、分析应用阶段和自主决策阶段。

(1)敏捷分析:经营决策,宏观分析,从业务宏观角度,把控结果

(2)行为数据:用户与企业交互产生的数据,微观分析

(3)协同思维:运营与数据科学家合作一同完成模型的开发,业务与技术协同

(4)分析应用

(4)自主决策:数据自适应,业务流程完全自动化

PART 5 统计分析(25%)

1、抽样估计

随机试验、随机事件、随机变量的概念

总体与样本的概念

抽样估计的理论基础

正态分布及三大分布的图像形式

三大分布的构造原理

随机事件的概率

点估计与区间估计方法的特点与优缺点

总体与样本

参数和统计量

重复抽样与不重复抽样

常见的抽样分布

随机变量及其概率分布

根据不同的场景,选择合适的统计量进行总体的参数估计

重复抽样与不重复抽样

参数估计

  • 评价估计量指标方法:

    ①无偏性:样本估计量的所有可能取值的数学期望等于被估计的整体参数

    ②有效性:对同一总体参数的两个无偏估计量,方差更小的更有效

    ③一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数

2、假设检验

假设检验基本概念

  • 事务对总体分布或总体参数做出某种假设(原假设),然后利用样本信息判断原假设是否成立。
  • 假设检验可以分为参数假设检验和非参数假设检验。
  • 检验过程中将提出原假设和备择假设。

其基本思想在数据分析中的作用

假设检验的基本步骤

①建立假设

②选择检验统计量,给出拒绝域形式

③选择显著性水平

④给出拒绝域

假设检验与区间估计的联系

假设检验中的两类错误

  • 弃真错误:原假设为真时拒绝原假设,犯第一类错误的概率为α,也称显著性水平。
  • 取伪错误:原假设为假时接受原假设,犯第二类错误的概率为β。
  • 一般认为显著性越小越好,但随着显著性减少,犯第二类统计错误β的概率会上升。
  • 在样本给定条件下,第一类错误与第二类错误此消彼长;
  • 要想同时减小两类错误,只能扩大样本量

检验统计量、显著性水平及对应临界值(Critical Value)的基本定义

P 值的含义及计算

如何利用 P 值进行检验

z 检验统计量

t 检验统计量

F 检验统计量

𝜒2检验统计量

实现单样本 t 检验

实现配对样本 t 检验

主要用于同一个试验前后效果的比较,或者同一个样本用两种方法得到的检验结果的比较。可以把配对样本的差作为变量,其中差值的总体均值为0,且服从正太分布。

两独立样本 t 检验的步骤和检验中使用的统计量与原假设

两种检验应用的数据分析场景

卡方检验

a)多个率或多个构成比比较

b)用于一个总体方差的区间估计

错题

  • 置信区间95%:在用同样方法构造的总体参数的多个区间中,有95%区间包含该总体参数

  • Apriori算法:

    支持度=包含物品A的记录数量/总的记录数量

    置信度(A->B)=包含物品A和B的记录数量/包含 A 的记录数量 =4/7

    提升度(A->B)=置信度(A->B)/(支持度B)=(4/7)/(6/9)

3、方差分析

方差分析的相关概念

单因素方差分析的原理

多因素方差分析的原理

方差分析的统计量构造过程

单因素方差分析的基本步骤

总离差平方和(SST)的含义及计算

组间离差平方和(SSA)的含义及计算

组内离差平方和(SSE)的含义及计算

单因素方差分析的原假设

多因素方差分析的种类

列联表检验的原理

实现单因素方差分析的步骤

实现多因素方差分析的步骤

对方差分析表的解读

方差分析表

Untitled

  • 组间平方和(回归平方和)包含效应间差异和随机误差;反应各个值之间误差大

小的平方和

  • 组内平方和(残差平方和)只包含随机误差,自由度为n-r;反应各观测值误差

大小的平方和

  • 自由度:因子A有4个水平,每个水平重复次数5/7/6/10,那么总试验次数n=28,水平数r=4,误差平方和的自由度为n-r=24,因子平方和的自由度为r-1=3,总平方和的自由度为n-1=27

单因子方差分析

  • 基本概念

    • 单个因素下的不同水平对观测变量的影响程度。
    • 组内变异是同类别下数据的离均差平方和,代表同类别数据变异的程度;组间变异是组内均值与总均值的离均差平方和,代表不同类别数据变异的程度。
  • 模型假设

    ①每一总体均为正态总体

    ②各总体方差相同

    ③从每一总体抽取的样本是相互独立的

错题

  • 检验若干个独立正态整体均值是否相等的一种统计方法,不能用于检验方差;

4、一元线性回归分析

相关分析散点图的绘制与作用

相关系数的计算公式

相关分析的概念与特点

相关关系与函数关系的区别与联系

相关关系的种类及意义

一元线性回归系数的最小二乘估计

一元线性回归模型的检验

计算相关系数与回归系数

回归分析与相关分析的区别与联系

相关性的度量方法

a)皮尔逊相关系数:两个连续变量

b)斯皮尔曼相关系数:两个顺序性变量

c)肯德尔曼相关系数:一连续一顺序

d)相关系数:协方差/标准差,取值范围[-1,1] 与直线的斜率无关

PART 6 数据分析模型(40%)

总体要求: 领会模型基本原理,数值模型操作流程,懂得模型应用场景,能够完成数据建模分析报告

1、主成分分析

矩阵分析法的基本思想

Untitled

(1)明星产品:快速成长阶段,市场份额较大,但同时也需要大量的资金投入。

(2)问题产品:可能面临着市场增长快速但自身市场份额较小的问题。现金流可能表现为较高的投资现金流,用于产品推广、市场扩张等方面。

(3)金牛产品:低增长高市场份额,这类产品通常在成熟市场中占据较大的市场份额,因此其现金流状况可能比较稳定;用于产品更新、市场维护等方面。

(4)瘦狗产品:低增长低市场份额,市场竞争激烈市场份额较小,需要考虑产品淘汰或重塑。

主成分分析的原理

(1)有多少个变量就有多少个正交的主成分

(2)主成分的变异(方差)之和等于原始变量的所有的变异(方差)之和

(3)前几个主成分的变异(方差)可以解释原多元数据中的绝大部分变异(方差)

(4)如果原始变量不相关,即协方差为0,还是要做主成分分析。

主成分分析的原理是将原来的变量重新组合成一组新的、相互无关的几个综合变量。

主成分分析的计算步骤

  • 白化处理:消除数据中相关性,使处理后的数据各个维度之间相互独立。

适用于主成分分析的变量类型

主成分的个数的保留原则

单个主成分分析解释的变异(特征值)不应该小于1,并且选取的前几个主成分累计解释的变异能够达到总体的80%-90%

错题

在主成分分析中,方差是依次递减的。

各主成分之间相互正交。

特征根从大到小排序,通常要求前K个特征根都大于1

各个主成分之间的方向夹角为90度。

主成分分析不适用于分类型变量的降维。

通过正交交换将一组可能存在相关性的变量转换成一组线性不相关的变量。

对于主成分分析来说,主要关注的是变量之间的相关性。

行观测和列变量之间是没有任何关系的,选择行观测之间的相似性主要在聚类中使用。

进行主成分分析的前提条件是各变量之间应该高度相关。

a)主要关注变量之间的相关性;

b)因为使用的是度量各变量之间相关性的协方差矩阵;

c)各主成分之间的夹角是固定的,都是正交的;

d)各主成分方差依次递减;

e)缺点是全局降维

f)特征值分解法:将原随机向量的协方差阵变换为对角形阵

2、因子分析

了解因子分析模型设置,只需要关注主成分法的计算步骤

适用于因子分析的变量度量类型,通过分析结果,选取合适的因子个数

常用因子旋转的方法

主成分分析与因子分析的联系与区别

(1)因子旋转方法

方差最大正交旋转、斜交旋转

(2)模型假设

①各个共同因子之间不相关

②特殊因子之间也不相关

③共同因子与特殊因子之间也不相关

(3)模型步骤

估计因子载荷矩阵、进行因子旋转、估计公共因子(因子得分)

(4)模型检验

①KMO检验:取值在0,1之间;越接近1说明简单相关系数平方和越大于偏相关系数平方和,说明变量间的相关性越高,从而能更好的提取共同特征的因子

②相关系数矩阵

③反映像相关矩阵

(5)错题

  • 需要计算协方差或相关系数,非常容易受到异常值等影响,因此需要先进行规范化
  • 特殊因子:是没有泛用性但是又对结果有影响的因子,比如运气,一般不需要特别计算因子得分
  • 因子分析的本质就是找到解释变量的公共因子和特殊因子。
  • 主成分分析是组合的过程,因子分析是分解的过程。
  • 因子分析中提取的因子数一般要求小于变量个数。
  • 因子分析中因子旋转的方法有方差最大正交旋转、斜交旋转、正交旋转
  • 因子分析中的共同度
    • 共同度高的意味着大部分的变异可以被因子解释,这通常可以被解释为该变量对因子的贡献度大,代表着某个原始变量与其他原始变量相关性高,能够较好的代表原始变量的信息。

3、回归分析

考点

多元线性回归的原理

使用最小二乘法计算多元回归模型的结果

明确线性回归的 6 个经典假设

明确违反上述假设后出现的问题以及解决方法

明晰横截面和时间序列数据在回归建模上的差异

模型评估、模型检验、系数检验

结合业务构建回归模型并且解释回归系数

根据业务场景与变量分布情况进行函数转换

解释变量为分类变量时的处理方法

(1)模型假设

①Y的平均值能够准确地被由X组成的线性函数建模出来

②解释变量与随机扰动项不存在线性关系

③解释变量之间不存在线性关系(或强相关),即不完全相关

④假设随机误差项是一个独立的,均值为0,方差恒为常数σ²的正态分布

(2)自由度

  • 含有p个变量的多元回归模型,样本量为n,则该模型的回归平方和自由度为p,残差平方和自由度为n-p-1

(3)评估指标

AdjustedR-Squared/FStatistics/MAPE/残差平方和/均方误差/AIC/BIC

  • ①R方

    ①表示多元回归中的回归平方和(因变量回归估计值总变差的大小)占总离差平方和(因变量观测值总变差的大小)的比例;

    ②R方越大,表示多元回归方程的拟合程度越好;

    ③会随着模型中自变量数量的增加而增大;

    ④为避免增加自变量而高估R方,提出调整R方;

    ⑤评价一元线性回归模型拟合程度时使用

  • ②AIC/BIC

    多元线性回归变量筛选常使用的评价准则

(4)最小二乘法

①适用于一元或多元线性回归;

②在回归系数估计的所有无偏估计中,是唯一的最小方差估计;

③原理是求使得离差平方和最小的参数-Σ(yi-yi帽)^2

(5)检验方法

①多元回归可用F检验和t检验,而一元回归中F检验的统计量会退化为t统计量的平方,二者复杂度相同

②整体检验的原假设是回归系数全为0

③t检验(回归系数检验):方差未知;用于线性回归中,回归系数的检验

④F检验(线性关系检验):用于线性回归中,回归方程的检验

残差平方和:被解释变量观测值总变差中未被列入模型解释的部分

(6)多重共线性

①缓解-逐步回归法、正则化方法、剔除一个、偏最小二乘;

②会使估计方差变大,让预测结果更容易不准确

③VIF(方差膨胀因子):检验自变量的共线性问题

④某个解释变量对其余解释变量的判定系数接近1,说明这些变量线性相关性很高, 即为多重共线性

⑤不可剔除所有的共线性变量

(7)忽略自相关

①可能严重低估误差项的方差

②可能导致高估检验统计量t值,致使不显著的变量变的显著了

③最小方差无偏性不再成立

(8)错题

  • 多元线性回归模型中自变量的系数矩阵X为列满秩,则矩阵X的列向量之间是线性无关
  • 系数矩阵X的列数为自变量的个数,一般用P表示,x‘x是一个P*P的矩阵,阶数为p

4、分类分析

考点

卡方检验计算原理与公式

二分类逻辑回归的计算公式

分类变量是否存在相关关系的描述方法和检验方法,涉及列联表分析、卡方检验与 Logit 转换

二分类逻辑回归模型构建与变量筛选

模型评估的方法,涉及混淆矩阵、ROC 曲线、由混淆矩阵衍生出来的评估指标

结合业务构建分类模型并且解释回归系数

根据模型结果进行新样本预测

进行客户流失预测、信用评级、精准营销等模型的基本步骤与注意事项

(1)混淆矩阵、ROC曲线、成对比较

!https://pic2.zhimg.com/80/v2-8b0db8859dcf6cb6d89e924a6b3ea7d5_1440w.webp

!https://pic3.zhimg.com/80/v2-1e2339885d8b4d6d2c781dea98d9fe76_1440w.webp

  • x轴=C/(C+D),特异率Specificity,1-特异率为roc曲线X轴
  • Y轴=A/(A+B)
  • AUC=F+G
  • 精确度=A/(A+C);precision,也叫命中率,查准率,所有预测为1里面检测出来的
  • 召回率=A/(A+B);recall,查全率,命中率,全部样本中全部识别出来的比例,所有真实为1的里面预测出来的
  • 准确率A+D/(A+B+C+D)
  • F1-score=2pre*rec/pre+rec

(2)算法

①KNN:临近算法,属于分类算法,是数据挖掘分类技术中最简单的方法之一

②贝叶斯

③逻辑回归:对于逻辑回归有ln(p/1-p)=wx+b,当p=0.5时,wx+b=0

④几率(odds):事件发生与不发生的概率的比值P/(1-P)

⑤Sigmoid函数:1/(1+e^-x),逻辑回归使用此函数进行概率转换

⑥逻辑回归的两个计算

几率提升了几倍:ln(p/(1-p))=B0x+E

概率为P=1/(1+e^-x)

5、聚类分析

用于用户画像,客户分群

考点

聚类模型的评估方法

聚类方法的基本逻辑,涉及层次聚类、kmeans聚类

层次聚类和 K-Means 聚类的基本算法和优缺点

层次聚类的计算步骤,包括两点距离、两类合并的计算方法

K-Means 聚类的基本算法

聚类分析变量标准化的原因和计算方法

变量需要进行主成分分析的原因

距离的计算

结合客户画像、客户细分、商品聚类、离群值检验(欺诈、反洗钱)等业务运用场景,选取合适的聚类方法与步骤。

聚类事后分析,根据聚类后变量分布情况获取每类的特征。

(1)聚类方法

  • 按照远近程度聚类明确两个距离:点和点之间的距离、类和类之间的距离

(2)系统(分层)聚类

①计算类与类距离的公式:重心法、全连接法、ward法

②离差平方和法(Ward法):基于方差分析的思想,

③如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大

(3)K-means聚类

  • 迭代算法

    需要计算均值和距离,非常容易受到量纲和异常值等的影响,需要进行数据标准化

  • 注意

    取每个点距离最近的中心点进行簇的划分

(4)聚类评价

  • 如果不考虑外部信息,聚类结构的优良性度量应当采用均方差
  • 组间平方和越大,说明各个组区分的越明显,聚类效果越好;组内平方和越小,说明每个组里元素的属性越接近,聚类效果越好

(5)变量相似性测量尺度

①间隔尺度-数值型变量

②顺序尺度-顺序型变量

③名义尺度-分类型变量

6、时间序列

时间序列分析的方法

明确趋势分解法、ARMA方法、ARIMA 方法差异和适用场景

ARIMA方法的建模流程

(1)时间序列常用定义及分类

时间序列数据是按时间顺序排列、随时间变化且相互关联的数据序列。

  • 按研究对象:一元时间序列、多元时间序列
  • 按时间属性:离散时间序列、连续时间序列
  • 按序列的特性:平稳时间序列、非平稳时间序列

(2)波动

①循环波动指周期长度不定的变动模式

②固定以年/月等为周期波动的是季节波动

(3)平稳

①严平稳:时间序列的概率分布与时间t无关;期望与相关系数(依赖性)不变的平稳情况

②宽平稳:序列存在一、二阶矩;任意时刻t,均值、方差为常数,协方差为时间间隔k的函数

③对于非平稳时间序列,大部分场景下最好变成平稳序列的方法是差分

(4)分析方法-效应分解法

①Winter模型:同时含有平滑值(随机成分)和季节成分,因此可用于同时含有趋势和季节成分的预测

②分解法:分解时间序列成分,分别使用曲线拟合;可用于含有趋势和季节成分的预测

③Holt模型:不含季节成分;用于线性趋势预测

④简单指数平滑模型:不含随机成分;用于随机序列的预测

⑤指数模型、多项式模型:用于非线性趋势的预测

(5)分析方法-ARIMA方法

针对数据产生的机理构建动态模型,即根据数据扰动项间的相关性结构构建预测模型。

①AR:自回归过程,描述当前值与历史值之间的关系,累加往期的影响

②AR模型平稳性判别方法:单位根判别法、平稳域判别法、自相关图

③I:差分

④MA:移动平均过程,描述自回归部分的误差累计

(6)分析方法-ARMA方法

①AR:自回归模型,时间序列当期预测值与前p期有线性关系,与前p+1期无线性关系。

②MA模型:t期系统扰动项的期望为常数,方差为常数。自相关系数ACFq阶截尾。偏自相关系数PACF拖尾。

③ARMA模型:自回归移动平均模型。

④性质:1).x的期望与系数序列α有关,方差有界

           2).自相关系数ACF拖尾

           3).偏相关系数PACF拖尾

(7)其他

  • RSI相对强弱指标,能够反映出市场在一定时期内的景气程度
  • MACD称为异同移动平均线,代表着市场趋势的变化
  • 一个独立同标准正态分布的随机序列就是平稳序列。若一个平稳时间序列的序列值之间没有相关性,那么就意味着这种数据前后没有规律,也就无法挖掘有效的信息,这种序列被称为纯随机序列。
  • 平稳时间序列分析在于充分挖掘时间序列之间的关系,当时间序列中的关系被提取出来后,剩下的序列就应该是一个白噪声序列。

PART 7 数字化工作方法(12%)

1、业务探查与问题定位

  • 【领会】

    (1)异常事件严重度评估准则。

    • 通过转货漏斗及趋势、比较、细分用户类型
    • 对比测试:判断收益、计算额外GTV等

    (2)业务流程等事件还原工具。

    业务流程图:描述具体某个业务实际处理步骤和过程的流程图。

    价值流程图(Value Stream Mapping VSM):一种用来描述物流和信息流的形象化工具。

  • 【熟知】

    (1)业务流程图的绘制步骤

    • 确定产品系列(流程系列):不同产品系列价值流不同
    • 绘制材料流程图
    • 确定信息流:绘制信息流和推动箭头
    • 补充时间线和数据:绘制生产时间线条和数据完成现状图

    (2)业务流程图的注意事项

    • 图析:避免出现方向性错误
    • 产品选择:产品的产值、利润
    • 找出影响公司发展的主要因素
    • 客户的需求节奏要根据实际供货历史加以修正
    • 前期拉客阶段保障库存,后期可逐步减少

2、问题诊断——根本原因分析

根因分析是一种结构化的调查活动,目的是识别问题的真正原因和消除它所必需的措施

【熟知】

通过帕累托分析识别要点。

通过散点图、关联图、亲和图进行关联分析。

通过漏斗分析、用户画像、留存分析、跟踪数字足迹进行探查。 绘制原因型因果图。

Untitled

(1)问题理解工具

  • 流程图:展示问题发生的地方,有常规流程图、跨职能流程图、多层流程图等

  • 关键事件:避免主观思考,不要按照内心认定的问题去想办法

  • 雷达图:标杆分析方法,绘制每个变量的绩效,并与目标作比较

  • 绩效矩阵:阐明当前绩效和重要性,帮助达成对优先事项的统一认识

    Untitled

(2)问题原因头脑风暴——近因分析

  • 头脑风暴

    • 结构化的头脑风暴:每位参与者轮流提出一个想法;非
    • 结构化的头脑风暴:自由提出想法,可能一个或多个主导讨论活动。
  • 书面头脑风暴:保持活动的连贯性,避免敏感问题,有较大机会获得复杂的想法

  • 是一非矩阵:理解似是而非的问题原因,识别与所讨论问题毫无关系的想法

    Untitled

  • 名义群组技术:匿名收集想法,给每个想法评分后汇总分数,选出总分最高的方案。

  • 配对比较

  • 量化分析分析工具的选取。

(3)问题原因的数据收集

取样、调查、检查表

(4)问题原因数据分析

  • 柱状图

    • 表示数据的分布和变化,如长度、直径、期限、成本、态度等

    • 组距 = 极差/组数

      Untitled

  • 帕累托图

    • “关键的少数”,强调大多数的结果(约80%)都是由一部分少数原因(约20%)引起的,简单地揭示出需要解决的问题的顺序;
    • 坐标轴:
      • 横轴上按照原因的相对重要性高低顺序从左到右排序;
      • 纵轴标出数值,右纵轴标出百分比;

    Untitled

  • 散点图-关联分析

    • 表示两个原因或者其他变量之间的关系;
    • 当不同层面之间的原因总是互相影响时,散点图可以反映各种原因之间的关系(原因必须可数值表示)
  • 问题集中图-关联分析

    • 将记录的问题和物理位置联系起来,揭示问题发生的方式,尤其是发生在物理系统或设施上的问题 联系物理位置
    • 常用于识别问题发生的模式
    • 一般通过绘制地图的方式发现问题和原因;

    Untitled

  • 关联图-关联分析

    • 理解不同层面的问题如何联系在一起的;
    • 洞悉问题和需要进一步分析的可能原因之间的关系
    • 复杂情境下使逻辑可视化;为弄清一个层面的原因对另一个层面的原因影响后,探求原因链
  • 亲和图(KJ图)-关联分析

    • 适用于定性数据;先将数据分组,然后找到结果群之间的潜在关系;
    • 探求不同原因之间的关系,更多的是不同层级的原因之间的关系;
    • 将相关的原因组合成一类,这些类别将在以后的分析中被集体用到;

    Untitled

(5)根原因识别工具

  • 因果图(鱼骨图)

    • 包括分散分析法和原因枚举法;
    • 分散分析法把要分析的问题画在图形的右侧,大箭头的末端。将不同类别的可能原因作为箭头的分支画在上面。对于每个分支,要将所有的可能原因都标识出来。
    • 鱼骨图的类型:
      • ① 整理问题型鱼骨图(各要素与特性值间无原因关系,是结构构成关系)
      • ② 原因型鱼骨图(鱼头在右)
      • ③ 对策型鱼骨图(鱼头在左,特性值常以“如何提高/改善……”来写) 创建图形方式:分散分析法、原因枚举法
  • 矩阵图

    • 分析可能原因和问题之间的因果关系
    • 描绘出问题的不同原因的总体影响;
    • 确定哪些因素是最显著的,其往往就是根原因;

    Untitled

  • 五问法

    • 更深入地探究多层次的原因;找到一个原因就不断地问why,通过各层次的原因直至找到问题的根原因;
    • 注意事项:别转牛角尖,很可能坚持争论事情背后还有其他原因
  • 故障树分析

    • 该工具偏向于分析有关联的或者属于类似问题的群组;故障树分析是建立在五问法结果之上的。
    • 目的:
      • ①对识别的可能原因产生一个清晰的总体看法;
      • ②寻找原因之间的联系或识别关联原因的群组; 可用于预测,也可用于事后分析(本书偏向于事后分析);
        • 代表独立作用
        • 代表共同作用

    Untitled

(6)根原因消除

寻找新的问题解决方案时可以选择一种激发创造力的方法—六项思考帽,以及两种开发方案的工具—创造性解决问题理论(TRIZ)和系统发明思想(SIT)。 五点原理:从产品自身出发,优先考虑自己关键点,然后是身处环境,替换,分离和去除。

  • 六项思考帽

    • 可以帮助人们认清自己所使用的思考方法,并鼓励对问题采用不同的思考方式,从不同的视角发现解决问题的方案;
    • 适用于
      • 从不同视角观察问题,并发现问题的解决方案;
      • 在作出决策前,确保进行严密的审查;

    Untitled

  • 创造性解决问题理论(TRIZ)

    • 应对不能简单地将周知的解决方案应用于类似问题;
    • 目的是允许问题解决者把问题分解为一些核心成分,将他们自己从已知的解决方案中解放出来,从而进入真正全新的解决方案领域;
      • 适用于:激发分析团队的创造性;发现问题的解决方案。
  • 系统创新思考方法(SIT)

    • SIT是TRIZ的发展,是基于”封闭世界“原理,强调问题的创造性解决方案主要取决于这些问题的自然成分或者它临近的环境;
    • 适用于:发现问题的创造性解决方案;确保这些解决方案可用,而且属于该问题的环境,这样就使方案更容易实施;
    • 5个原理
      • 属性依赖,使用最为广泛的模板,考虑改变产品的关键变量。
      • 成分控制关注产品与它的环境相联系的方式。
      • 替代就是用产品临近环境的东西来替换产品的某个部分。
      • 移置就是通过去掉一个固有的成分来改进产品的表现。
      • 分开就是简单地把一种产品的属性分成两种,如洗浴用品分洗发水。

(7)解决方案实施

该阶段包括:组织实施活动;建立所需变革的可接受程度和创造一种便于实施的良好氛围;执行该计划。

  • 树图

    把复杂任务组织成符合逻辑的活动;策划解决方案的实施过程;

    Untitled

  • 立场分析

    深入理解实施的变革氛围;策划有效的实施活动;

    Untitled

Untitled

Untitled

Untitled

3、业务策略优化和指导

(1)业务目标设定原则

(2)线性规划

  • 组成部分
    • 目标函数:最大或最小化函数
    • 约束条件:一组线性不等式或等式
    • 决策变量:影响系统性能的可控变量
  • 标准形式
    • i.通过松弛变量或者剩余变量将一般线性问题的约束条件中的不等式化为等式
    • ii.通过变换(比如同乘-1)将约束条件右端的常数转换为非负数;python中的linprog函数用来解决最小化问题,max的目标函数要乘以(-1),转化为最小化
    • iii.将决策变量转换(比如加入新变量)为非负数
  • 求解方法
    • 单纯形法、改进单纯形法、对偶单纯形法、原始对偶方法、分解算法和各种多项式时间算法
  • 错题
    • 线性规划问题指目标函数和约束条件均为线性关系

(3)整数规划

  • 分类

    • 纯整数规划:决策变量都是非负整数
    • 混合整数规划:
    • 0-1规划:决策变量只取0、1
  • 求解方法

    a)分枝定界法:可求纯或混合整数线性规划。

    b)割平面法:可求纯或混合整数线性规划。

    c)隐枚举法:用于求解0-1整数规划,有过滤法和分枝法。

    d)匈牙利法:解决指派问题(0-1规划特殊情形)。

    e)蒙特卡罗法:求解各种类型规划。

(4)二次规划

  • 组成部分
  • 标准形式
  • 求解方法
    • 拉格朗日法、内点法、椭球法、Lemke方法、有效集法

(5)整数规划与线性规划的差异性。

  • 不能直接对线性规划取整(去尾),得整数规划的最优解
  • 整数规划的最优解小于等于线性规划的最优解
  • 如果线性规划没有可行解,那么整数规划也没有可行解

(6)知识库的类型和组成部分。

(7)策略库的类型和组成部分。

其他

  • 常用区分好坏客户的指标:AUC/ROC/KS/Gini系数

  • 哑变量:将虚拟变量放入回归时,一定要少放一个,否则系统会提示存在多重共线性的问题

  • 数据完整性约束:实体完整性、参照完整性、用户定义完整性

  • 反应离中趋势:异众比率、变异系数、四分位差、平均差和标准差

  • 信息构成:数据+元数据

  • 离散系数主要作用:

    a)比较不同计量单位数据的离散程度

    b)比较不同变量值水平数据的离散程度

  • 数据标准化方法:Z-score标准化、区间缩放、向量单位化

  • 2.直方图与柱形图相同和不同:

    • (1)直方图和柱形图都是纵向条形展示数据的,但两者完全不同。

    • (2)柱形图用条形的长度表示频率或百分比数值的大小,条形的宽度是固定的。

             直方图用面积表示各组频数的大小,条形的高度表示每组数据的频数或频率,条形的宽度表示各组数据的组距
      
    • (3)直方图的各条形连续排列,而柱状图的各条形分开排列。

              直方图展示数值型数据,而柱形图展示分类数据。
      
  • 箱线图

    • (1)离散程度:盒子的上边缘代表75%分位数(上四分位数),下边缘代表25%分位数(下四分位数),而盒子中间的线代表50%分位数(中位数)。如果盒子越长,说明数据的离散程度越大;相反,如果盒子越短,说明数据的离散程度越小。另外如果盒子的上边缘与下边缘之间的距离较大,或者存在异常值,都意味着数据的离散程度较高。
    • (2)数据的偏态:对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱型图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。
    • (3)IQR:变量上、下四分位数之间的数据,这个范围表示中间50%的数据。
  • 回归分析中存在多重共线性会导致回归参数的标准差变大,即所谓的膨胀效应。遇到多重共线性问题时可以利用逐步回归、岭回归、Lass回归,提前使用主成分、变量聚类等方法予以解决。

  • fl-score指标是precision与recall的调和平均值,是统计学中用来衡量二分类模型精准度的一个指标。

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值