CDA LEVEL 2 建模分析师备考笔记

CDA LEVEL 2 建模分析师备考笔记

基础理论

  1. Data mining:数据挖掘,从现有大量数据中撷取不明显、之前未知、可能有用的知识。

  2. KDD知识发现过程:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。

  3. CRISP-DM方法论:业务理解、数据理解、数据准备、建模、模型评估、模型发布。

  4. SEMMA方法:抽样、探索、修订、建模、评估。

  5. 变量测量类型:名义测量、次序测量、连续测量。

分类变量:

  • 检查:众数、分类取值百分比差异。
  • 主要统计量: 频次、百分比; 累积频次、累积百分比(仅用于有序变量)。

连续变量:

  • 检查:中心水平、离散程度、偏态程度、峰度。
  1. 数据预处理:通过各类技术手段对数据进行划分、清理、转换、缩减。

  2. KNN最近邻分类: 一种惰性学习法,涉及 数据前处理、距离计算、预测概率的估计。

  • 数据前处理:极值正规化 v’=(v-min)/(max-min)
  • 距离计算(同时进行了极值正规化):
    • 曼哈顿距离(街区距离):
      d ( i , j ) = ∣ x i 1 − x j 1 ∣ R 1 + ∣ x i 2 − x j 2 ∣ R 2 + ⋯ + ∣ x i p − x j p ∣ R p d\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1xi1xj1+R2xi2xj2++Rpxipxjp
      简易解释:d(i,j)=∑(|i 的值-j 的值|/(max-min))
    • 欧氏距离(两点直线距离):
      d ( i , j ) = ( ∣ x i 1 − x j 1 ∣ R 1 ) 2 + ( ∣ x i 2 − x j 2 ∣ R 2 ) 2 + ⋯ + ( ∣ x i p − x j p ∣ R p ) 2 d\left ( i,j \right )=\sqrt{\left ({\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}} \right )^{2}+ \left ({\frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}} \right )^{2}+ \cdots +\left ({\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}}} \right )^{2}} d(i,j)=(R1xi1xj1)2+(R2xi2xj2)2++(Rpxipxjp)2
      简易解释:d(i,j)=根号(∑(|i 的值-j 的值|/(max-min))^2)
  • 预测概率的估计:
    eg.a,b,c三分类问题,当k=5时,最近邻有3个a、1个b、1个c,则这个未知点是a的概率为3/5
  1. 数据挖掘技术按功能分:
描述型无需目标字段无监督刻画数据一般性质eg.关联规则、序列模式、聚类分析
预测型需要目标字段有监督归纳当前数据以便做预测eg.贝式网络、决策树、神经网络、逻辑回归
  • 数据挖掘技术绩效增益:

  • 混淆矩阵(准确率、查准率、查全率、F1值)

  • Gain chart

  • Lift chart

  • Profit chart

  • 描述性统计和可视化是 探索性数据分析 常用的两个方法

数据预处理

  • 数据预处理包括:字段选择、数据清洗、字段扩充、数据编码、特征提取。
  1. 字段选择:
    数据整合:消除重复;消除不一致。
    数据过滤:建立区隔化模型的过程。
  2. 数据清洗:
  • 噪声(替代)

    • 错误值(类别型)处理方法:
      - 视为空
    • 离群值(数值型)处理方法:
      - 视为空
      - 盖帽法
      - 函数矫正法
  • 缺失值(填充)处理方法:

    • 人工填补法

    • 自动填补法:用均值、众数、中位数、常数等填充;转换为哑变量(0,1),代表数据是否缺失。
      - 连续型:均值、中位数、常数。
      - 离散型:众数、常值(eg.Unknown)、增加表示缺失的标签。

    • 推论法:用回归模型去预测

    • 直接忽略

  1. 字段扩充:
  • 外部数据整并

  • 内部数据统整

    *字段扩充在数据预处理过程中,通常是最花时间的阶段

  1. 数据编码
  • 数据转换
    • 正规化
      • 极值正规化 v’=(v-min)/(max-min) 值在0~1间
      • z分数正规化 v’=(v-均值)/标准差 大部分值在0附近,值可能大于1
    • 一般化(泛化) eg.东南西北中、高等/基础教育
    • 离散化
      • 人工分离法
      • 自动化分离
        • 装箱法
          • 等宽:max-min)/n
            -各区间range一样,有为空的可能
          • 等深(等分):n/箱容量
        • 趋势离散化
  • 数据精简
    • 记录精简
      抽样代表整体:随机抽样、分层抽样、聚类抽样、系统抽样、两阶段式抽样、多阶段式抽样
    • 域值精简
      • 类别数据一般化
      • 数值数据离散化
    • 字段精简
      • 专家的经验直觉
      • 自动化的分析方法
        • (分类)用统计检定
        • (预测)用皮尔森相关系数
        • (分群)用主成分分析or因素分析
  1. 特征提取技术
  • 无效变量:会增加模型复杂度、降低模型效率和稳定性
    • 种类:
      不相关变量:与目标变量间相互独立
      多余变量:与另一变量作用相近
    • 检验:
      • 卡方检验
      • IV值(信息价值)
      • ANOVA检定(方差分析):用来判断X是连续型,Y是多分类的情况
      • T检验:用来判断X是连续型,Y是二分类的情况
      • 相关系数:用来判断X,Y全是连续型的情况
        -注:卡方、ANOVA、T检验都是<0.05代表相关程度很大,0.05~1之间则一般
    • 压缩技术
      • 连续变量:主成分分析、因子分析、变量聚类
      • 分类变量:水平聚类、WOE打分
        - 归类压缩的常见原因:避免某分类中Y缺乏变异的问题;避免在模型中出现过多的哑变量。

预测型数据挖掘模型

包括贝式网络、线性回归、逻辑回归、决策树、神经网络、支持向量机SVM、集成算法。

描述型数据挖掘模型

包括聚类分析、关联规则、序列模式。

-END-

由于笔记内容太多,就不写在这里了,文末有xmind格式的完整笔记下载链接,请自行查看下载。下图是笔记的部分截图:
在这里插入图片描述

说明:笔者刚参加完第14届建模分析师考试,这些笔记都是为了应对考试总结的,不适于完全没有基础的人,请读者结合考试手册和CDA LEVEL 2建模分析师认证考试辅导培训视频课使用,祝大家都能顺利通过考试。

关于CDA LEVEL 1 业务分析师考试,重点把贾俊平的《统计学》和考试手册学好基本可以过的,并不需要报什么班,追求高分除外。而CDA LEVEL 2就需要搞些视频课看了,毕竟有实操题。

如果有任何问题欢迎评论区交流~

完整版笔记内容请跳转到下载页自行下载:
xmind思维导图笔记链接https://download.csdn.net/download/qq_17105473/13984357

  • 4
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值