特征归一化
特征归一化常见的有两种,一种是线性函数归一化,一种是零均值归一化。
- 线性函数归一化(Min-Max Scaling)
对原始数据进行线性变换,将结果映射到【0,1】的范围,归一化公式如下:
X n o r m = X − X m i n X m a x − X m i n , X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}} , Xnorm=Xmax−XminX−Xmin,
其中 X 为原始数据, X m a x X_{max} Xmax 、 X m i n X_{min} Xmin 分别为数据最大值和最小值。 - 零均值归一化(zero-score Normalization)
它会将原始数据映射到均值为0、标准差为1的分布上。
归一化公式定义为:
z = x − μ σ z = \frac{x-\mu}{\sigma} z=σx−μ
归一化的目的: 更快的通过梯度下降找到最优解。 btw, 特征归一化对于决策树模型并不适用,详细的还不了解。
图像数据不足时的处理方法
数据不足面的问题主要表现在拟合方面,就是说我们在训练集上面的效果可能还不错,但是在测试集上的泛化能力很差。解决方法可以分为两类。
- 基于模型的方法:简化模型(非线性变成线性),添加约束项以减小假设空间(L1/L2正则项),Dropout超参数等;
- 数据扩充:随机旋转,平移,裁剪,缩放,添加颜色扰动,比如椒盐噪声,高斯噪声。
MSE评估
M
S
E
l
o
s
s
=
∑
i
=
1
n
(
y
i
−
y
i
^
)
2
n
MSE_{loss} = \sqrt{\frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{n}}
MSEloss=n∑i=1n(yi−yi^)2
这是一个用来评测回归模型的常用指标。数值越大,说明效果越差,数值越小,说明效果越好。
一个问题就是离群点对该评价指标的影响很大,