百面机器学习一

特征归一化

特征归一化常见的有两种,一种是线性函数归一化,一种是零均值归一化。

  1. 线性函数归一化(Min-Max Scaling)
    对原始数据进行线性变换,将结果映射到【0,1】的范围,归一化公式如下:
    X n o r m = X − X m i n X m a x − X m i n , X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}} , Xnorm=XmaxXminXXmin
    其中 X 为原始数据, X m a x X_{max} Xmax X m i n X_{min} Xmin 分别为数据最大值和最小值。
  2. 零均值归一化(zero-score Normalization)
    它会将原始数据映射到均值为0、标准差为1的分布上。
    归一化公式定义为:
    z = x − μ σ z = \frac{x-\mu}{\sigma} z=σxμ
    归一化的目的: 更快的通过梯度下降找到最优解。 btw, 特征归一化对于决策树模型并不适用,详细的还不了解。

图像数据不足时的处理方法

  数据不足面的问题主要表现在拟合方面,就是说我们在训练集上面的效果可能还不错,但是在测试集上的泛化能力很差。解决方法可以分为两类。

  1. 基于模型的方法:简化模型(非线性变成线性),添加约束项以减小假设空间(L1/L2正则项),Dropout超参数等;
  2. 数据扩充:随机旋转,平移,裁剪,缩放,添加颜色扰动,比如椒盐噪声,高斯噪声。

MSE评估

M S E l o s s = ∑ i = 1 n ( y i − y i ^ ) 2 n MSE_{loss} = \sqrt{\frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{n}} MSEloss=ni=1n(yiyi^)2
  这是一个用来评测回归模型的常用指标。数值越大,说明效果越差,数值越小,说明效果越好。
  一个问题就是离群点对该评价指标的影响很大,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值