PART 1 数据采集与处理(9%)
- 数据采集方法
- 市场研究中的数据
- 收集方式:实验数据和观测数据
- 对象与时间的关系:时间序列数据、截面数据、面板数据
- 来源:原始数据和二手数据
- 概率抽样方法:从总体中随机抽取一部分个体作为样本
- 简单随机抽样
- 分层抽样
- 系统抽样(等距抽样)
- 多段抽样
- 抽取方式:重复抽样、不重复抽样
- 数据误差:抽样误差、非抽样误差
- 最小抽样量计算(见书95)
- 非概率抽样方法:用自己方便的形式或主观判断抽取样本的方法
- 偶遇抽样
- 判断抽样
- 定额抽样:与分层概率抽样的区别是各层样本是非随机抽取
- 滚雪球抽样
- 空间抽样
- 概率和非概率抽样的区别
- 概率抽样更严格,可以推断总体,费用较高,耗时
- 非概率抽样简单、成本低、省时间,样本无法确定代表性,不能推断总体
- 市场调研和数据录入
- 市场调研流程
- 目标设定:确定目标,提取问题
- 调研前准备:对象选取、问卷设计等
- 调研:座谈会、访谈、问卷等
- 数据处理和分析:数据入库、统计、挖掘等
- 拟写报告:形成报告、提出建议
- 调研方式与样本抽取
- 焦点小组座谈会:非概率抽样(偶遇、判断、定额等)
- 深度访问:非概率抽样(判断、定额、滚雪球等)
- 实验市场和产品试销:概率或非概率(偶遇)
- 定点拦截访问:非概率抽样(偶遇)
- 中心定点访问:概率或非概率(定额)
- 网上调查问卷:概率或非概率(偶遇)
- 电话调查访问:概率或非概率(偶遇)
- 问卷设计原理:
- 具体性
- 单一性
- 通俗性
- 准确性
- 客观性
- 非否定性
- 数据探索与可视化
数据探索常用数据描述方法:集中趋势分析、离中趋势分析、数据分布关系、图分析
- 数据预处理方法
数据预处理基本步骤:
- 数据集成:不同数据源的整合
- 数据探索:错误数据识别处理、连续型变量离群值识别处理、分类型变量概化处理、缺失值处理、连续型变量分布形态转换
- 数据转换:中心标准化、归一化
- 数据归约:变量降维、WOE转换
缺失值处理方法:
- 缺失少于20%:连续型均值、中位数填补、分类型单独一类、众数填补
- 缺失20-80%:同上填补,同时生成指示哑变量
- 缺失大于80%:生成指示哑变量,删除原始变量
PART 2 指标体系(3%)
- 定义概念
指标体系是指系统地反映评价对象整体的多个具体指标的集合。
- 意义
- 指标口径清晰、统一规范
- 用户自主、灵活用数
- 有效控制报表开发成本
- 指标库:根指标、组合指标和派生指标
- 指标标准:是数据管控体系的核心,是连接基础数据和数据应用的桥梁
PART 3 数据治理与数据模型管理(6%)
- 数据治理
- 数据治理驱动因素:内部发展需要和外部监管需要
- 数据治理域:
- 组织架构与职责(RACI方法)
- 管理流程与管理制度
- 数据管理域:
- 数据模型管理
- 元数据管理:业务、技术、管理元数据,描述数据定义和属性
- 数据标准管理
- 数据质量管理:正确性、完整性、一致性
- 数据安全管理
- 数据生命周期管理:生成传输、存储、处理应用、销毁等
- 数据服务管理
- 主数据管理:最核心、最需要共享的数据
- 数据应用域:
- 监管报送应用
- 精准营销应用
- 产品创新应用
- 开展数据治理:
- 准确定位数据治理
- 明确数据应用方向
- 多层级全方位进行治理
- 数据模型管理
- 数据分类:(数据管理视角)
- 主数据
- 交易数据(事务数据)
- 统计分析数据(指标)
- 参考数据
- 元数据
- 数据建模
- 概念模型:描述预设范围内的业务需求,实体间的业务关系
- 逻辑模型:详细业务解决方案,实体、属性及实体关系
- 物理模型:详细技术解决方案,转换模型数据库的设计表达,DBMS模型
- 数据仓库体系和ETL
- 数据仓库特征:面向主题、数据集成、数据相对稳定、数据随时间变化
- 数据集市:按照不同的业务需求对数据仓库中的数据进行进一步提取和整合,例如财务报表数据集市、绩效分析数据集市等
PART 4 标签体系与用户画像(5%)
- 标签体系设计原理
- 标签分类
- 数据类型:属性、状态、协议、行为、需求标签
- 时态角度:静态标签、时点标签、时期标签
- 加工角度:基础标签、统计标签、模型标签
- 应用角度:用户运营、信用风险、合规风险等标签类
- 标签加工方式
- 基础标签:原生属性或派生属性
- 统计标签:统计汇总后的数据
- 模型标签:基于算法模型,以基础、统计标签为基础加工出来的标签,包括规则类模型标签和算法类模型标签
- 用户画像
- 概念:所谓用户画像,就是将产品已有用户的标签提炼出来进行描述与统计,用于定位目标群体
- STP模型:Segmentation细分市场、Targeting选择目标市场、Positioning市场定位
- 5W1H分析法:拆解用户画像,从原因Why、对象What、地点Where、时间When、人员Who、方法How等6个方面思考
- 马斯洛需求理论:从低到高划分为生理需求、安全需求、归属需求、尊重需求和自我实现需求
- 用户细分的方法
- 层级细分:数据需求低,难以设计合适的服务
- 用户群体细分:群体有共同需求和特征,分群较为模糊,资源难分配
- 双重细分:资产规模和贡献潜力
- 先进细分:所有数据维度,一对一定制化方案
- 用户画像在EDIT中的D诊断阶段进行应用
PART 5 统计分析(25%)
- 抽样估计
- 常见分布:正态分布、泊松分布、伽玛分布、对数正态分布
- 参数估计:点估计、区间估计
- 均值标准误差:衡量样本均值的变异程度
- 参数估计基本步骤:
- 选定参数:确定需要估计的参数,如均值、方差、标准差等
- 选定统计量:确定估计参数的统计量
- 抽样分布:已知或假定模型分布
- 估计:点估计、区间估计
- 矩估计:简单、精度较差,对Cauchy分布不适用
- 极大似然估计:精度较高,需要知道总体的分布函数
- 假设检验
- 基本原理
- 对总体分布或参数做出假设,利用样本信息判断假设是否成立
- 参数假设检验和非参数假设检验
- 反证法,即小概率原理
- 假设检验的两类错误
- 弃真错误:H0原假设为真时,拒绝原假设,犯错误概率为a,称为显著性水平
- 取伪错误:H0原假设为假时,接受原假设,犯错误概率为b
- 注意:拒绝或不拒绝假设,不能说明结论100%正确;两类错误概率相加不一定为1;样本量不变时,两类错误的概率不能同时增大或者减小
- 假设检验与区间估计的区别:二者都是统计方法中的推断统计,都是通过样本的统计量对总体参数进行推断,不同点是假设检验是反证法,区间估计是顺推法
- 假设检验基本步骤:
- 提出原假设,确定业务需求
- 选择合适的检验统计量
- 确定显著性水平a
- 计算检验统计量
- 做出决策,接受或拒绝原假设:a临界值法、p值法、置信区间法
- 配对样本t检验:检验两个配对样本的均值是否有显著性差异
- 对同一研究对象给予两种不同的处理结果
- 对同一研究对象的试验前后进行比较
- 方差分析
- 概念:方差分析用于检验多个样本均值是否有显著性差异,多用于连续型变量与多分类型变量的关系
- 单因素方差分析:
- 前提条件:变量服从正态分布、观测独立、方差齐性
- 总离差平方和SST
- 组间离差平方和SSM
- 组内离差平方和SSE
- SST = SSM + SSE
- 多因素方差分析
- 无交互效应
- 有交互效应:考虑分类型变量之间的交互效应
- 分类型变量之间关系检验:
- 列联表分析
- 卡方检验:比较期望频数和实际频数的吻合程度,服从自由度为(r-1*c-1)的卡方分布,r为行数,c为列数,只能说明变量是否相关,无法定义强弱
- 一元线性回归分析
- 原理:拟合一条直线,使实际值与预测值之差的平方和最小
- R平方:回归拟合优度,计算为可解释的平方和除以总平方和
- 连续变量:pearson相关系数;有序变量:spearman秩相关系数
PART 6 数据分析模型(40%)
- 主成分分析
- 矩阵分析法:大数据小分析,如波士顿矩阵分析(市场增长率、市场占有率)
- 主成分分析:构造输入变量的少数线性组合,达到降维的目的,并尽可能多地解释原始数据的变异性
- 主成分分析特点:
- 有多少变量就有多少正交的主成分
- 主成分的方差之和等于原始变量的所有方差之和
- 前几个主成分可以解释原始变量中绝大多数方差
- 若原始变量不相关,协方差为0,不需要做主成分分析
- 主成分选取原则:
- 单个主成分的特征值不应该小于1
- 前几个主成分累计解释变异达到总体的80-90%
- 主成分分析应用:
- 综合打分
- 对数据进行描述
- 为聚类、回归等分析提供变量压缩
- 去除数据噪声,如图像识别
- 因子分析
- 因子载荷
- 变量共同度
- 方差贡献:所有变量中该公共因子的因子载荷平方和
- 因子分析算法
- 因子载荷矩阵估计:主成分分析
- 因子旋转:最大方差法
- 因子得分:加权最小二乘法
- 应用:
- 聚类前对数据进行描述
- 根据原始变量在因子上的权重绝对值明确因子的意义
- 回归分析
- 多元线性回归的评估:调整R平方,引入观测个数和模型自变量个数
- 多元线性回归变量筛选:
- 向前回归法
- 向后回归法
- 逐步回归法
- 筛选准则:AIC准则,综合考虑拟合效果和模型复杂度
- 线性回归模型假设
- 线性:因变量与自变量间是线性关系
- 正交假定:扰动项与自变量不相关,期望为0
- 残差独立同分布:相互独立且服从方差相等的同一正态分布
- 多重共线性:提前筛选变量、子集选择、正则化(岭回归、lasso回归)、降维
- 验证模型假定:
- 初始化设计模型,选择变量等
- 解释变量和扰动项不能相关
- 变量间不能存在共线性(方差膨胀系数)
- 扰动项独立且同分布(异方差检验、DW检验)
- 扰动项服从正态分布(QQ检验)
- 分类分析
- 逻辑回归模型及实现
- 逻辑回归与发生比
- 基本原理:预测事件概率,使用最大似然估计
- 极大似然估计:找出与样本分布最接近的概率分布的模型
- 模型评估:
- ROC曲线、KS曲线、洛伦兹曲线等
- 混淆矩阵
- 准确率、精确率、提升度、召回率、1-特异度、假正率、f1 score
- ROC曲线:x轴是1-特异度,y轴是灵敏度,成为代价-收益曲线
- 聚类分析
- 用户细分的不同商业主题
- 产品设计阶段:用户的需求和态度
- 资源投入优化-用户价值分层:RFM模型
- 用户管理-用户生命周期分群
- 用户营销-用户行为特征分群
- 聚类分析基本逻辑:计算n个观测样本两两之间的距离,距离近的为一类,远的分为不同类,最终达到组间距离最大化、组内距离最小化。
- 聚类评估方法:
- 轮廓系数:值域-1到1,越小聚类效果越差
- 平方根标准误差:越小聚类效果越好
- R平方:聚类后群间差异的大小,越大聚类效果越好
- ARI:若聚类已有结果,判断数据集的两个划分是否相同
- 层次聚类基本步骤:
- 计算两两之间的距离及类间距离
- 将距离最近的合并为一类,重新计算类间距离
- 一直重复上述过程,直到所有样本都聚为一类
- 计算类间距离方法:
- 重心法(平均法)
- 全联接法(平均联接法)
- Ward最小方差法
- 层次聚类特点:较好解释性,可确定分为几类,处理大数据样本比较吃力
- K-means聚类算法步骤:
- 设定K值,确定聚类数,随机分配聚类中心
- 计算样本到类中心的欧式距离,分为K类
- 把K类中心(均值)作为新的中心,重新计算距离
- 不断迭代更新到收敛为止
- 变量转换:
- 消除量纲影响:中心标准化、极差标准化
- 消除量纲且改变分布:对数、百分位秩、Tukey评分等
- 时间序列
- 时间序列分类
- 一元、多元时间序列
- 离散时间序列、连续时间序列
- 平稳时间序列、非平稳时间序列
- 效应分解法:
- 趋势性、周期性/季节变动、随机性
- 组合方式:加法模型、乘法模型
- 平稳时间序列:任意时间下,序列的均值、方差存在且为常数,自协方差函数和相关系数只与时间间隔k有关,而与时间t无关
- 自回归模型(AR模型):当期观测值与前p期有线性关系,与前p+1期无关系,ACF拖尾,PACF p阶截尾
- 移动平均模型(MA模型):当前观测值与前q期扰动项存在相关关系,ACF q阶截尾,PACF拖尾
- ARMA模型:结合AR和MA模型,ACF拖尾,PACF拖尾
- 模型定阶:ACF、PACF、AIC、BIC准则等
- 非平稳时间序列:利用差分运算转换为平稳时间序列
- ARIMA模型建模步骤:
- 平稳化:差分运算
- 定阶:AIC最小化
- 估计
- 检验:残差是否为白噪声序列
- 预测
PART 7 数字化工作方法(12%)
- 业务探查与问题定位
- 价值流程图绘制步骤:
- 确定产品系列(流程系列)
- 绘制材料流程图
- 确定信息流
- 补充时间线和数据
- 流程图注意事项:
- 图析准备
- 产品选择
- 找出主要因素
- 顾客需求根据实际加以修正
- 顾客需求拉动:顾客拉动、成品仓库发货拉动
- 异常事件严重度评估准则:SAC
- 问题诊断
- 头脑风暴法:结构化的和非结构化的头脑风暴法
- 量化分析:
- 识别要点:帕累托分析
- 关联分析:散点图、问题集中图、关联图、亲和图(定性数据)
- 差异分析:漏斗图、用户画像
- 根本原因分析
- 5WHY分析法
- 因果图:理解是什么原因导致了问题
- 原因型因果图:鱼头在右,以为什么来描述
- 对策型因果图:鱼头在左,以如何提高/改善来描述
- 原因归纳维度
- 人为因素
- 设备因素
- 环境因素
- 其他因素
- 5WHY与鱼骨图关系
- 头脑风暴法是5WHY和鱼骨图的基础
- 5WHY和鱼骨图可以互为方法,可以穿插使用或者单独使用
- 鱼骨图是全面分析问题,5WHY是分析问题的根本原因
- 建立跨职责小组是根本原因分析的有效保障
- 业务策略优化和指导
- 优化模型组成:目标函数、决策变量、约束条件
- 线性规划:线性约束条件下线性目标函数的极值问题
- 整数规划:
- 纯整数规划
- 混合整数规划
- 0-1规划
- 二次规划:带有二次型目标函数和约束条件的最优化问题
- 知识库
- 类型:客群、产品、渠道知识库
- 组成部分:基本属性、交易属性、关系属性
- 策略库
- 类型:经营、风控、营销策略库
- 组成部分:事件库、规则库
- 流程优化:
- 分析方法:DMAIC模型、ESIA分析、ECRS分析、SDCA循环
- 工具:寻找改进方向——标杆瞄准;寻找改进环节——价值流程图(VSM)
PART 8 模拟题补充知识点
- 线性规划问题标准形式特征:
- 目标函数为极大化类型
- 约束条件是等式
- 约束方程右端的常数为非负
- 决策变量是非负的
- 根原因分析因果鱼骨图类型:
- 原因型:鱼头在右侧
- 对策型:鱼头在左侧
- 整理问题型:鱼头在左侧,不存在原因关系,是结构构成关系时使用
- 根原因分析的5WHY分析法从以下角度实施:
- 制造角度
- 检验角度
- 体系角度
- 鱼骨图的特点:
- 鱼尾:填上问题或者现状
- 鱼头:代表目标
- 脊椎:达成过程中的步骤和影响因素等
- 根因分析中的亲和图用于定性数据分析
- 头脑风暴分为:
- 结构化头脑风暴:轮流提出想法,确保平等参与
- 非结构化头脑风暴:自由提出想法
- 根因分析的核心是:根原因识别
- 严重度评估准则(SAC):依据损害严重程度和事件发生频率呈现风险矩阵
- Winter模型含有平滑值(随机成分)和季节成分;Holt模型不含季节成分;简单指数平滑不含随机成分
- LIFT用于评估分类模型
- 在所有无偏估计中,最小二乘法估计是唯一的最小方差估计法
- 因子分析的假设:
- 共同因子之间不相关
- 特殊因子之间不相关
- 共同因子和特殊因子也不相关
- 各主成分的方差就是协方差矩阵的特征值
- 常用相关性度量方法:
- 两个连续变量:皮尔逊相关系数
- 两个顺序性变量:斯皮尔曼相关系数
- 连续和顺序变量:肯德尔曼相关系数
- 给定显著性水平下,预测方差越大,预测区间越宽,精度越低
- 单因素方差分析中:
- 组间误差平方和包括效应间差异和随机误差
- 组内误差平方和只包含随机误差
- 95%置信区间的含义是:在用同样的方法构造的总体参数的多个区间中,有95%的区间包含该总体参数
- RFM模型最大短板:在于用户ID统一认证
- 根因分析是一种结构化的调查活动,不是单一方法,不是一组工具,其核心是根因识别
- 麦肯锡问题三大类型:
- 恢复原状型问题
- 追求理想型问题
- 防范潜在型问题
- 线性关系检验(F检验):检验因变量与自变量之间的关系是否显著,即总体显著性检验
- 回归系数检验(t检验):检验每个自变量对因变量的影响是否显著,对各回归系数分别检验
- 在一元线性回归中,线性关系检验(F检验)和回归系数检验(t检验)是等价的
- 参数估计中,估计量的评价标准有:
- 无偏性
- 有效性
- 一致性
- 其中,总体均值和比例估计满足3种标准,而总体方差估计只满足无偏性
- 常用二次规划解决方法:
- 拉格朗日法
- 内点法
- 椭球法
- 常用整数规划解决方法:
- 分支定界法
- 割平面法
- 隐枚举法
- 鱼骨图创建图形方式:分散分析法、原因枚举法
- DBSCAN聚类适合处理具有噪声数据的聚类
- 产生自相关的原因有:
- 经济系统的惯性
- 漏掉重要解释变量
- 经济变量的滞后性
- 检验原始变量是否适合做因子分析方法有:
- 相关系数矩阵
- KMO检验
- 反映像相关矩阵
- 单个正态总体方差检验属于卡方检验
- 假设检验步骤:
- 建立假设
- 选择检验统计量,给出拒绝域形式
- 选择显著水平
- 给出拒绝域
- 用户画像验证方法:
- 事中验证:模型验证指标、抽样验证、交叉验证等
- 事后验证:真实数据验证、AB实验、业务反馈数据验证等
- 数据完整性约束规则包括:
- 实体完整性
- 参照完整性
- 用户定义完整性
- 根因分析中问题原因头脑风暴技术包括:是非矩阵、名义群组技术、配对比较等
- 根因分析中问题理解层面会用到绩效矩阵
- 数据标准化的方法:
- Z-score标准化
- 区间缩放
- 向量单位化
- 进行逻辑回归的系数解释时,是借助优势比的概念进行解释
- 逻辑回归模型中,使用约登指数来确定最优阈值
- 时间序列分析中,判别平稳性最常用的方式是绘制时序图
- 差分操作有:
- 阶次差分:消除长期趋势的影响
- 步次差分:消除季节效应的影响
- 时间序列模型评估方法:残差白噪声检验
- 假设检验中,EXCEL计算P值的函数:DIST
- 假设检验中,EXCEL计算临界值的函数:INV
- 奇异值分解是适用于非方阵情况的主成分分析,不局限于方阵数据
- 当变量取值范围不一致时,需要对数据进行标准化后,使用相关系数矩阵替代协方差矩阵来计算主成分
- 构建逻辑模型时,需要检查是否符合三范式
- 假设检验的原假设和备择假设:
- 左侧检验:原假设大于等于,备择假设小于
- 右侧检验:原假设小于等于,备择假设大于
- 使用statsmodels建立线性回归模型步骤:
- 设置公式:
formula = "Y~X"
- 实例化模型:
m = ols(formula, data)
- 模型拟合:
m.fit()
- 输出模型拟合结果:
m.summary()
- 设置公式:
以上就是本人在备考CDA level 2时做的一些知识点笔记,希望能帮助到即将考试的同学们,祝大家都能够顺利通过考试。