CDA LEVEL 2 建模分析师备考笔记
基础理论
-
Data mining:数据挖掘,从现有大量数据中撷取不明显、之前未知、可能有用的知识。
-
KDD知识发现过程:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
-
CRISP-DM方法论:业务理解、数据理解、数据准备、建模、模型评估、模型发布。
-
SEMMA方法:抽样、探索、修订、建模、评估。
-
变量测量类型:名义测量、次序测量、连续测量。
分类变量:
- 检查:众数、分类取值百分比差异。
- 主要统计量: 频次、百分比; 累积频次、累积百分比(仅用于有序变量)。
连续变量:
- 检查:中心水平、离散程度、偏态程度、峰度。
-
数据预处理:通过各类技术手段对数据进行划分、清理、转换、缩减。
-
KNN最近邻分类: 一种惰性学习法,涉及 数据前处理、距离计算、预测概率的估计。
- 数据前处理:极值正规化 v’=(v-min)/(max-min)
- 距离计算(同时进行了极值正规化):
- 曼哈顿距离(街区距离):
d ( i , j ) = ∣ x i 1 − x j 1 ∣ R 1 + ∣ x i 2 − x j 2 ∣ R 2 + ⋯ + ∣ x i p − x j p ∣ R p d\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}} d(i,j)=R1∣xi1−xj1
- 曼哈顿距离(街区距离):