分享一份自己考试整理的CDA LEVEL2考纲对应的学习笔记内容

PART 1 数据采集与处理(9%)

  1. 数据采集方法
  1. 市场研究中的数据
    1. 收集方式:实验数据和观测数据
    2. 对象与时间的关系:时间序列数据、截面数据、面板数据
    3. 来源:原始数据和二手数据
  2. 概率抽样方法:从总体中随机抽取一部分个体作为样本
    1. 简单随机抽样
    2. 分层抽样
    3. 系统抽样(等距抽样)
    4. 多段抽样
    5. 抽取方式:重复抽样、不重复抽样
    6. 数据误差:抽样误差、非抽样误差
    7. 最小抽样量计算(见书95)
  3. 非概率抽样方法:用自己方便的形式或主观判断抽取样本的方法
    1. 偶遇抽样
    2. 判断抽样
    3. 定额抽样:与分层概率抽样的区别是各层样本是非随机抽取
    4. 滚雪球抽样
    5. 空间抽样
  4. 概率和非概率抽样的区别
    1. 概率抽样更严格,可以推断总体,费用较高,耗时
    2. 非概率抽样简单、成本低、省时间,样本无法确定代表性,不能推断总体
  1. 市场调研和数据录入
  1. 市场调研流程
    1. 目标设定:确定目标,提取问题
    2. 调研前准备:对象选取、问卷设计等
    3. 调研:座谈会、访谈、问卷等
    4. 数据处理和分析:数据入库、统计、挖掘等
    5. 拟写报告:形成报告、提出建议
  2. 调研方式与样本抽取
    1. 焦点小组座谈会:非概率抽样(偶遇、判断、定额等)
    2. 深度访问:非概率抽样(判断、定额、滚雪球等)
    3. 实验市场和产品试销:概率或非概率(偶遇)
    4. 定点拦截访问:非概率抽样(偶遇)
    5. 中心定点访问:概率或非概率(定额)
    6. 网上调查问卷:概率或非概率(偶遇)
    7. 电话调查访问:概率或非概率(偶遇)
  3. 问卷设计原理:
    1. 具体性
    2. 单一性
    3. 通俗性
    4. 准确性
    5. 客观性
    6. 非否定性
  1. 数据探索与可视化

数据探索常用数据描述方法:集中趋势分析、离中趋势分析、数据分布关系、图分析

  1. 数据预处理方法

数据预处理基本步骤:

  1. 数据集成:不同数据源的整合
  2. 数据探索:错误数据识别处理、连续型变量离群值识别处理、分类型变量概化处理、缺失值处理、连续型变量分布形态转换
  3. 数据转换:中心标准化、归一化
  4. 数据归约:变量降维、WOE转换

缺失值处理方法:

  1. 缺失少于20%:连续型均值、中位数填补、分类型单独一类、众数填补
  2. 缺失20-80%:同上填补,同时生成指示哑变量
  3. 缺失大于80%:生成指示哑变量,删除原始变量

PART 2 指标体系(3%)

  1. 定义概念

指标体系是指系统地反映评价对象整体的多个具体指标的集合。

  1. 意义
    1. 指标口径清晰、统一规范
    2. 用户自主、灵活用数
    3. 有效控制报表开发成本
  2. 指标库:根指标、组合指标和派生指标
  3. 指标标准:是数据管控体系的核心,是连接基础数据和数据应用的桥梁

PART 3 数据治理与数据模型管理(6%)

  1. 数据治理
  1. 数据治理驱动因素:内部发展需要和外部监管需要
  2. 数据治理域:
    1. 组织架构与职责(RACI方法)
    2. 管理流程与管理制度
  3. 数据管理域:
    1. 数据模型管理
    2. 元数据管理:业务、技术、管理元数据,描述数据定义和属性
    3. 数据标准管理
    4. 数据质量管理:正确性、完整性、一致性
    5. 数据安全管理
    6. 数据生命周期管理:生成传输、存储、处理应用、销毁等
    7. 数据服务管理
    8. 主数据管理:最核心、最需要共享的数据
  4. 数据应用域:
    1. 监管报送应用
    2. 精准营销应用
    3. 产品创新应用
  5. 开展数据治理:
    1. 准确定位数据治理
    2. 明确数据应用方向
    3. 多层级全方位进行治理
  1. 数据模型管理
  1. 数据分类:(数据管理视角)
    1. 主数据
    2. 交易数据(事务数据)
    3. 统计分析数据(指标)
    4. 参考数据
    5. 元数据
  2. 数据建模
    1. 概念模型:描述预设范围内的业务需求,实体间的业务关系
    2. 逻辑模型:详细业务解决方案,实体、属性及实体关系
    3. 物理模型:详细技术解决方案,转换模型数据库的设计表达,DBMS模型
  3. 数据仓库体系和ETL
    1. 数据仓库特征:面向主题、数据集成、数据相对稳定、数据随时间变化
    2. 数据集市:按照不同的业务需求对数据仓库中的数据进行进一步提取和整合,例如财务报表数据集市、绩效分析数据集市等

PART 4 标签体系与用户画像(5%)

  1. 标签体系设计原理
  1. 标签分类
    1. 数据类型:属性、状态、协议、行为、需求标签
    2. 时态角度:静态标签、时点标签、时期标签
    3. 加工角度:基础标签、统计标签、模型标签
    4. 应用角度:用户运营、信用风险、合规风险等标签类
  1. 标签加工方式
  1. 基础标签:原生属性或派生属性
  2. 统计标签:统计汇总后的数据
  3. 模型标签:基于算法模型,以基础、统计标签为基础加工出来的标签,包括规则类模型标签和算法类模型标签
  1. 用户画像
  1. 概念:所谓用户画像,就是将产品已有用户的标签提炼出来进行描述与统计,用于定位目标群体
  2. STP模型:Segmentation细分市场、Targeting选择目标市场、Positioning市场定位
  3. 5W1H分析法:拆解用户画像,从原因Why、对象What、地点Where、时间When、人员Who、方法How等6个方面思考
  4. 马斯洛需求理论:从低到高划分为生理需求、安全需求、归属需求、尊重需求和自我实现需求
  5. 用户细分的方法
    1. 层级细分:数据需求低,难以设计合适的服务
    2. 用户群体细分:群体有共同需求和特征,分群较为模糊,资源难分配
    3. 双重细分:资产规模和贡献潜力
    4. 先进细分:所有数据维度,一对一定制化方案
  6. 用户画像在EDIT中的D诊断阶段进行应用

PART 5 统计分析(25%)

  1. 抽样估计
  1. 常见分布:正态分布、泊松分布、伽玛分布、对数正态分布
  2. 参数估计:点估计、区间估计
  3. 均值标准误差:衡量样本均值的变异程度
  4. 参数估计基本步骤:
    1. 选定参数:确定需要估计的参数,如均值、方差、标准差等
    2. 选定统计量:确定估计参数的统计量
    3. 抽样分布:已知或假定模型分布
    4. 估计:点估计、区间估计
  5. 矩估计:简单、精度较差,对Cauchy分布不适用
  6. 极大似然估计:精度较高,需要知道总体的分布函数
  1. 假设检验
  1. 基本原理
    1. 对总体分布或参数做出假设,利用样本信息判断假设是否成立
    2. 参数假设检验和非参数假设检验
    3. 反证法,即小概率原理
  2. 假设检验的两类错误
    1. 弃真错误:H0原假设为真时,拒绝原假设,犯错误概率为a,称为显著性水平
    2. 取伪错误:H0原假设为假时,接受原假设,犯错误概率为b
    3. 注意:拒绝或不拒绝假设,不能说明结论100%正确;两类错误概率相加不一定为1;样本量不变时,两类错误的概率不能同时增大或者减小
  3. 假设检验与区间估计的区别:二者都是统计方法中的推断统计,都是通过样本的统计量对总体参数进行推断,不同点是假设检验是反证法,区间估计是顺推法
  4. 假设检验基本步骤:
    1. 提出原假设,确定业务需求
    2. 选择合适的检验统计量
    3. 确定显著性水平a
    4. 计算检验统计量
    5. 做出决策,接受或拒绝原假设:a临界值法、p值法、置信区间法
  5. 配对样本t检验:检验两个配对样本的均值是否有显著性差异
    1. 对同一研究对象给予两种不同的处理结果
    2. 对同一研究对象的试验前后进行比较
  1. 方差分析
  1. 概念:方差分析用于检验多个样本均值是否有显著性差异,多用于连续型变量与多分类型变量的关系
  2. 单因素方差分析:
    1. 前提条件:变量服从正态分布、观测独立、方差齐性
    2. 总离差平方和SST
    3. 组间离差平方和SSM
    4. 组内离差平方和SSE
    5. SST = SSM + SSE
  3. 多因素方差分析
    1. 无交互效应
    2. 有交互效应:考虑分类型变量之间的交互效应
  4. 分类型变量之间关系检验:
    1. 列联表分析
    2. 卡方检验:比较期望频数和实际频数的吻合程度,服从自由度为(r-1*c-1)的卡方分布,r为行数,c为列数,只能说明变量是否相关,无法定义强弱
  1. 一元线性回归分析
  1. 原理:拟合一条直线,使实际值与预测值之差的平方和最小
  2. R平方:回归拟合优度,计算为可解释的平方和除以总平方和
  3. 连续变量:pearson相关系数;有序变量:spearman秩相关系数

PART 6 数据分析模型(40%)

  1. 主成分分析
  1. 矩阵分析法:大数据小分析,如波士顿矩阵分析(市场增长率、市场占有率)
  2. 主成分分析:构造输入变量的少数线性组合,达到降维的目的,并尽可能多地解释原始数据的变异性
  3. 主成分分析特点:
    1. 有多少变量就有多少正交的主成分
    2. 主成分的方差之和等于原始变量的所有方差之和
    3. 前几个主成分可以解释原始变量中绝大多数方差
    4. 若原始变量不相关,协方差为0,不需要做主成分分析
  4. 主成分选取原则:
    1. 单个主成分的特征值不应该小于1
    2. 前几个主成分累计解释变异达到总体的80-90%
  5. 主成分分析应用:
    1. 综合打分
    2. 对数据进行描述
    3. 为聚类、回归等分析提供变量压缩
    4. 去除数据噪声,如图像识别
  1. 因子分析
  1. 因子载荷
  2. 变量共同度
  3. 方差贡献:所有变量中该公共因子的因子载荷平方和
  4. 因子分析算法
    1. 因子载荷矩阵估计:主成分分析
    2. 因子旋转:最大方差法
    3. 因子得分:加权最小二乘法
  5. 应用:
    1. 聚类前对数据进行描述
    2. 根据原始变量在因子上的权重绝对值明确因子的意义
  1. 回归分析
  1. 多元线性回归的评估:调整R平方,引入观测个数和模型自变量个数
  2. 多元线性回归变量筛选:
    1. 向前回归法
    2. 向后回归法
    3. 逐步回归法
    4. 筛选准则:AIC准则,综合考虑拟合效果和模型复杂度
  3. 线性回归模型假设
    1. 线性:因变量与自变量间是线性关系
    2. 正交假定:扰动项与自变量不相关,期望为0
    3. 残差独立同分布:相互独立且服从方差相等的同一正态分布
    4. 多重共线性:提前筛选变量、子集选择、正则化(岭回归、lasso回归)、降维
  4. 验证模型假定:
    1. 初始化设计模型,选择变量等
    2. 解释变量和扰动项不能相关
    3. 变量间不能存在共线性(方差膨胀系数)
    4. 扰动项独立且同分布(异方差检验、DW检验)
    5. 扰动项服从正态分布(QQ检验)
  1. 分类分析
  1. 逻辑回归模型及实现
    1. 逻辑回归与发生比
    2. 基本原理:预测事件概率,使用最大似然估计
  2. 极大似然估计:找出与样本分布最接近的概率分布的模型
  3. 模型评估:
    1. ROC曲线、KS曲线、洛伦兹曲线等
    2. 混淆矩阵
    3. 准确率、精确率、提升度、召回率、1-特异度、假正率、f1 score
    4. ROC曲线:x轴是1-特异度,y轴是灵敏度,成为代价-收益曲线
  1. 聚类分析
  1. 用户细分的不同商业主题
    1. 产品设计阶段:用户的需求和态度
    2. 资源投入优化-用户价值分层:RFM模型
    3. 用户管理-用户生命周期分群
    4. 用户营销-用户行为特征分群
  2. 聚类分析基本逻辑:计算n个观测样本两两之间的距离,距离近的为一类,远的分为不同类,最终达到组间距离最大化、组内距离最小化。
  3. 聚类评估方法:
    1. 轮廓系数:值域-1到1,越小聚类效果越差
    2. 平方根标准误差:越小聚类效果越好
    3. R平方:聚类后群间差异的大小,越大聚类效果越好
    4. ARI:若聚类已有结果,判断数据集的两个划分是否相同
  4. 层次聚类基本步骤:
    1. 计算两两之间的距离及类间距离
    2. 将距离最近的合并为一类,重新计算类间距离
    3. 一直重复上述过程,直到所有样本都聚为一类
  5. 计算类间距离方法:
    1. 重心法(平均法)
    2. 全联接法(平均联接法)
    3. Ward最小方差法
  6. 层次聚类特点:较好解释性,可确定分为几类,处理大数据样本比较吃力
  7. K-means聚类算法步骤:
    1. 设定K值,确定聚类数,随机分配聚类中心
    2. 计算样本到类中心的欧式距离,分为K类
    3. 把K类中心(均值)作为新的中心,重新计算距离
    4. 不断迭代更新到收敛为止
  8. 变量转换:
    1. 消除量纲影响:中心标准化、极差标准化
    2. 消除量纲且改变分布:对数、百分位秩、Tukey评分等
  1. 时间序列
  1. 时间序列分类
    1. 一元、多元时间序列
    2. 离散时间序列、连续时间序列
    3. 平稳时间序列、非平稳时间序列
  2. 效应分解法:
    1. 趋势性、周期性/季节变动、随机性
    2. 组合方式:加法模型、乘法模型
  3. 平稳时间序列:任意时间下,序列的均值、方差存在且为常数,自协方差函数和相关系数只与时间间隔k有关,而与时间t无关
    1. 自回归模型(AR模型):当期观测值与前p期有线性关系,与前p+1期无关系,ACF拖尾,PACF p阶截尾
    2. 移动平均模型(MA模型):当前观测值与前q期扰动项存在相关关系,ACF q阶截尾,PACF拖尾
    3. ARMA模型:结合AR和MA模型,ACF拖尾,PACF拖尾
  4. 模型定阶:ACF、PACF、AIC、BIC准则等
  5. 非平稳时间序列:利用差分运算转换为平稳时间序列
  6. ARIMA模型建模步骤:
    1. 平稳化:差分运算
    2. 定阶:AIC最小化
    3. 估计
    4. 检验:残差是否为白噪声序列
    5. 预测

PART 7 数字化工作方法(12%)

  1. 业务探查与问题定位
  1. 价值流程图绘制步骤:
    1. 确定产品系列(流程系列)
    2. 绘制材料流程图
    3. 确定信息流
    4. 补充时间线和数据
  2. 流程图注意事项:
    1. 图析准备
    2. 产品选择
    3. 找出主要因素
    4. 顾客需求根据实际加以修正
    5. 顾客需求拉动:顾客拉动、成品仓库发货拉动
  3. 异常事件严重度评估准则:SAC
  1. 问题诊断
  1. 头脑风暴法:结构化的和非结构化的头脑风暴法
  2. 量化分析:
    1. 识别要点:帕累托分析
    2. 关联分析:散点图、问题集中图、关联图、亲和图(定性数据)
    3. 差异分析:漏斗图、用户画像
  3. 根本原因分析
    1. 5WHY分析法
  4. 因果图:理解是什么原因导致了问题
    1. 原因型因果图:鱼头在右,以为什么来描述
    2. 对策型因果图:鱼头在左,以如何提高/改善来描述
  5. 原因归纳维度
    1. 人为因素
    2. 设备因素
    3. 环境因素
    4. 其他因素
  6. 5WHY与鱼骨图关系
    1. 头脑风暴法是5WHY和鱼骨图的基础
    2. 5WHY和鱼骨图可以互为方法,可以穿插使用或者单独使用
    3. 鱼骨图是全面分析问题,5WHY是分析问题的根本原因
    4. 建立跨职责小组是根本原因分析的有效保障
  1. 业务策略优化和指导
  1. 优化模型组成:目标函数、决策变量、约束条件
  2. 线性规划:线性约束条件下线性目标函数的极值问题
  3. 整数规划:
    1. 纯整数规划
    2. 混合整数规划
    3. 0-1规划
  4. 二次规划:带有二次型目标函数和约束条件的最优化问题
  5. 知识库
    1. 类型:客群、产品、渠道知识库
    2. 组成部分:基本属性、交易属性、关系属性
  6. 策略库
    1. 类型:经营、风控、营销策略库
    2. 组成部分:事件库、规则库
  7. 流程优化:
    1. 分析方法:DMAIC模型、ESIA分析、ECRS分析、SDCA循环
    2. 工具:寻找改进方向——标杆瞄准;寻找改进环节——价值流程图(VSM)

PART 8 模拟题补充知识点

  1. 线性规划问题标准形式特征:
    1. 目标函数为极大化类型
    2. 约束条件是等式
    3. 约束方程右端的常数为非负
    4. 决策变量是非负的
  2. 根原因分析因果鱼骨图类型:
    1. 原因型:鱼头在右侧
    2. 对策型:鱼头在左侧
    3. 整理问题型:鱼头在左侧,不存在原因关系,是结构构成关系时使用
  3. 根原因分析的5WHY分析法从以下角度实施:
    1. 制造角度
    2. 检验角度
    3. 体系角度
  4. 鱼骨图的特点:
    1. 鱼尾:填上问题或者现状
    2. 鱼头:代表目标
    3. 脊椎:达成过程中的步骤和影响因素等
  5. 根因分析中的亲和图用于定性数据分析
  6. 头脑风暴分为:
    1. 结构化头脑风暴:轮流提出想法,确保平等参与
    2. 非结构化头脑风暴:自由提出想法
  7. 根因分析的核心是:根原因识别
  8. 严重度评估准则(SAC):依据损害严重程度和事件发生频率呈现风险矩阵
  9. Winter模型含有平滑值(随机成分)和季节成分;Holt模型不含季节成分;简单指数平滑不含随机成分
  10. LIFT用于评估分类模型
  11. 在所有无偏估计中,最小二乘法估计是唯一的最小方差估计法
  12. 因子分析的假设:
    1. 共同因子之间不相关
    2. 特殊因子之间不相关
    3. 共同因子和特殊因子也不相关
  13. 各主成分的方差就是协方差矩阵的特征值
  14. 常用相关性度量方法:
    1. 两个连续变量:皮尔逊相关系数
    2. 两个顺序性变量:斯皮尔曼相关系数
    3. 连续和顺序变量:肯德尔曼相关系数
  15. 给定显著性水平下,预测方差越大,预测区间越宽,精度越低
  16. 单因素方差分析中:
    1. 组间误差平方和包括效应间差异和随机误差
    2. 组内误差平方和只包含随机误差
  17. 95%置信区间的含义是:在用同样的方法构造的总体参数的多个区间中,有95%的区间包含该总体参数
  18. RFM模型最大短板:在于用户ID统一认证
  19. 根因分析是一种结构化的调查活动,不是单一方法,不是一组工具,其核心是根因识别
  20. 麦肯锡问题三大类型:
    1. 恢复原状型问题
    2. 追求理想型问题
    3. 防范潜在型问题
  21. 线性关系检验(F检验):检验因变量与自变量之间的关系是否显著,即总体显著性检验
  22. 回归系数检验(t检验):检验每个自变量对因变量的影响是否显著,对各回归系数分别检验
  23. 在一元线性回归中,线性关系检验(F检验)和回归系数检验(t检验)是等价的
  24. 参数估计中,估计量的评价标准有:
    1. 无偏性
    2. 有效性
    3. 一致性
    4. 其中,总体均值和比例估计满足3种标准,而总体方差估计只满足无偏性
  25. 常用二次规划解决方法:
    1. 拉格朗日法
    2. 内点法
    3. 椭球法
  26. 常用整数规划解决方法:
    1. 分支定界法
    2. 割平面法
    3. 隐枚举法
  27. 鱼骨图创建图形方式:分散分析法、原因枚举法
  28. DBSCAN聚类适合处理具有噪声数据的聚类
  29. 产生自相关的原因有:
    1. 经济系统的惯性
    2. 漏掉重要解释变量
    3. 经济变量的滞后性
  30. 检验原始变量是否适合做因子分析方法有:
    1. 相关系数矩阵
    2. KMO检验
    3. 反映像相关矩阵
  31. 单个正态总体方差检验属于卡方检验
  32. 假设检验步骤:
    1. 建立假设
    2. 选择检验统计量,给出拒绝域形式
    3. 选择显著水平
    4. 给出拒绝域
  33. 用户画像验证方法:
    1. 事中验证:模型验证指标、抽样验证、交叉验证等
    2. 事后验证:真实数据验证、AB实验、业务反馈数据验证等
  34. 数据完整性约束规则包括:
    1. 实体完整性
    2. 参照完整性
    3. 用户定义完整性
  35. 根因分析中问题原因头脑风暴技术包括:是非矩阵、名义群组技术、配对比较等
  36. 根因分析中问题理解层面会用到绩效矩阵
  37. 数据标准化的方法:
    1. Z-score标准化
    2. 区间缩放
    3. 向量单位化
  38. 进行逻辑回归的系数解释时,是借助优势比的概念进行解释
  39. 逻辑回归模型中,使用约登指数来确定最优阈值
  40. 时间序列分析中,判别平稳性最常用的方式是绘制时序图
  41. 差分操作有:
    1. 阶次差分:消除长期趋势的影响
    2. 步次差分:消除季节效应的影响
  42. 时间序列模型评估方法:残差白噪声检验
  43. 假设检验中,EXCEL计算P值的函数:DIST
  44. 假设检验中,EXCEL计算临界值的函数:INV
  45. 奇异值分解是适用于非方阵情况的主成分分析,不局限于方阵数据
  46. 当变量取值范围不一致时,需要对数据进行标准化后,使用相关系数矩阵替代协方差矩阵来计算主成分
  47. 构建逻辑模型时,需要检查是否符合三范式
  48. 假设检验的原假设和备择假设:
    1. 左侧检验:原假设大于等于,备择假设小于
    2. 右侧检验:原假设小于等于,备择假设大于
  49. 使用statsmodels建立线性回归模型步骤:
    1. 设置公式:
      formula = "Y~X"
    2. 实例化模型:
      m = ols(formula, data)
    3. 模型拟合:
      m.fit()
    4. 输出模型拟合结果:
      m.summary()

以上就是本人在备考CDA level 2时做的一些知识点笔记,希望能帮助到即将考试的同学们,祝大家都能够顺利通过考试。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>