1. 机器学习概述
分类:
2. 数据预处理
2.1预处理原则:
- 删除无信息量的特征:指删除与任务无关的特征
- 平衡数据保证:每一类别数据的个数都差不多
- 补全缺失数据
- 删除野值野值:与同类别其他数据的分布规律不一致的数据
- 非数值数据转换为数值数据:机器学习模型只能处理数值型数据
如:Yes = 1, No = 0 - 数据归一化:保证每个数据的特征数值大小都差不多
2.2 数据划分
- 70% 训练数据 Training Data
用于训练模型,调整模型参数 - 20% 测试数据 Testing Data
用于测试模型性能 - 10% 验证数据 Validation Data
用于确定模型的超参数(hyper-parameters)
3. 特征工程
特征选择
特征提取
4. 模型评价
简单来说,模型评价就是对模型给出的判断结果进行事实判定。一般认定数据为二分类(0或1;真或假),模型给出的结果与事实相符或不符即可表明模型的好坏——也就是模型评价。
实际结果:True / False
预测结果:Positive / Negative
TP:真实类别为真,评价为真
FP:真实类别为假,评价为真
TN:真实类别为真,评价为假
FN:真实类别为假,评价为假
准确率 Accuracy:
T
P
+
T
N
T
P
+
T
N
+
F
P
+
F
N
\frac{TP+TN}{TP+TN+FP+FN}
TP+TN+FP+FNTP+TN 表明模型整体的判断能力好坏
召回率 Recall (Sensitivity):
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
特异度 Specificity:
T
N
F
P
+
T
N
\frac{TN}{FP+TN}
FP+TNTN
精度Precision:
T
P
+
T
N
T
P
+
F
P
\frac{TP+TN}{TP+FP}
TP+FPTP+TN
F1值 =
2
∗
P
r
e
c
i
s
i
o
n
∗
R
e
c
a
l
l
P
r
e
c
i
s
i
o
n
+
R
e
c
a
l
l
2 *\frac{Precision*Recall}{Precision+Recall}
2∗Precision+RecallPrecision∗Recall
ROC(Region Under the Curve)线下区域
AOC(Area Under the Curve)线下区域面积