数据归一化:将数据的取值范围取到0~1之间,或者-1 ~ 1之间。
0-1之间:
(
x
−
x
m
i
n
)
/
(
x
m
a
x
−
x
m
i
n
)
(x - x_{min})/(x_{max}-x_{min})
(x−xmin)/(xmax−xmin)
-1 - 1之间:
(
(
x
−
x
m
i
n
)
/
(
x
m
a
x
−
x
m
i
n
)
−
0.5
)
∗
2
((x - x_{min})/(x_{max}-x_{min})-0.5)*2
((x−xmin)/(xmax−xmin)−0.5)∗2
均值标准化:x为特征数据, u为数据的平均值, s为数据的方差,
x
=
(
x
−
u
)
/
s
x = (x-u)/s
x=(x−u)/s
交叉验证:
例如,十折交叉验证:把数据集切割成10分,9分作为训练集,1份作为测试集,分别计算损失,最后求损失的平均值。
过拟合:
解决方法:
- 减少特征(特征越多,模型越复杂,且有很多的干扰信息)。
- 增加数据量,数据量越大,泛化能力越强。
- 正则化。
正则化:
添加正则项,可以有效缓解过拟合。
具体原理,后期添加。