CDA LEVEL 2 建模分析师备考笔记

CDA LEVEL 2 建模分析师备考笔记

基础理论

  1. Data mining:数据挖掘,从现有大量数据中撷取不明显、之前未知、可能有用的知识。

  2. KDD知识发现过程:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。

  3. CRISP-DM方法论:业务理解、数据理解、数据准备、建模、模型评估、模型发布。

  4. SEMMA方法:抽样、探索、修订、建模、评估。

  5. 变量测量类型:名义测量、次序测量、连续测量。

分类变量:

  • 检查:众数、分类取值百分比差异。
  • 主要统计量: 频次、百分比; 累积频次、累积百分比(仅用于有序变量)。

连续变量:

  • 检查:中心水平、离散程度、偏态程度、峰度。
  1. 数据预处理:通过各类技术手段对数据进行划分、清理、转换、缩减。

  2. KNN最近邻分类: 一种惰性学习法,涉及 数据前处理、距离计算、预测概率的估计。

  • 数据前处理:极值正规化 v’=(v-min)/(max-min)
  • 距离计算(同时进行了极值正规化):
    • 曼哈顿距离(街区距离):
      d ( i , j ) = ∣ x i 1 − x j 1 ∣ R 1 + ∣ x i 2 − x j 2 ∣ R 2 + ⋯ + ∣ x i p − x j p ∣ R p d\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1xi1xj1
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值