李宏毅2020机器学习笔记1——CXK

机器学习1
一、Regression 回归线性模型过程示例
1.step 1 :Model 线性模型
构建一个简单线性函数需要input、output以及必要参数(系数w、常数b)来组成,其中参数(w,b)为确定一个function的关键因素,不同的参数组合组成不同的function函数。
f :y = b + w*x;
多组参数组成的线性模型linear model
多组参数组成的线性模型linear model。
在本案例中,参数w为权衡input的权重,为实际相关性,参数b为偏移量,实际为特征可能存在的噪音。

2.Step 2 :Goodness of Function 确定评价函数
一个模型设计完成后,需要通过一一些检验来评判模型是否可以投入到应用当中来。因此,引入一个Loss Function 来衡量模型的某一组参数 (w,b)的好坏,即评判与真实预测目标 的误差程度。
在这里插入图片描述
Function L采用平方损失函数的形式,单个Function 的loss函数原理是:目标真实值-模型预测值=函数估测误差。再通过累加符号覆盖模型所有参数组合。

3.Step 3 :Best Function 选择最好的函数模型

在这里插入图片描述
这是一个模型所追求的基本目标,即要取使Loss函数值最小的参数(w,b)组合,为最终模型的参数。

处理方法:Gradient Descent 梯度下降法
(1)什么是梯度
在这里插入图片描述
梯度的数学意义就是取二元函数L在点(w,b)处的偏导数作为分量的向量。在该点的梯度方向应该为该点变化速度最快的方向上。通过泰勒公式来找Loss函数的近似表达式,最终化简为的公式。(下一节涉及推导)
(2)过程
在这里插入图片描述

该图是讲的单参数w的梯度下降运算过程。首先是任取一参数w0为初试Function的参数,在求出函数在参数w0时所对参数w的导数,第三步要确定一个“learning rate”步长,来控制函数每一次迭代的量。
在多参数Function中,过程同理,不过要通过运算函数偏导数来确定梯度。

步长:其值一般由经验确定,可通过多次测试不同步长来确定合适的步长量。(注:这种方法效率偏低,下一节会学习AdaGrad自适应学习速率的方法来确定合适步长)。

(3)还要注意一点是,在梯度下降法中,经过有限次迭代后所得到的loss最低值是函数的局部最优值,而非全局最优值,这是因为梯度下降法运算逻辑所致。不过,若model为线性回归或者部分逻辑回归模型,则均为凸函数(实数集二阶导在区间非负),经过有限次迭代后一定是全局最优解。

在这里插入图片描述
上图为两参数时的迭代过程,其方向是等高线垂直方向,一次次迭代当到达loss值最低点时,停止迭代。

4.Selection another Model 更新模型
(1)经过梯度下降法迭代后,得出当前所设计的方程的最优参数组合后,需要重新收集与Training data 相同量级的Testing Data数据带入到你的方程中求出Average Error数据值。俩数据的平均误差值比较,根据该模型所预测的实际目标要求评判当前模型的实用性,俩值差距过大或者与实际要求不符,则要通过其他方式进行修改模型并重新计算平均误差值,知道模型的平均误差值不会下降。注意拟合问题。
在这里插入图片描述

(2)调整model的方式:多项式回归法
在这里插入图片描述
增加因变量x的次数同时引入新的w参数,其目的是增加参数量提高model的表达、拟合能力。
在这里插入图片描述
在参数不断增加过程中,测试集数据的平均误差出现了一个低值拐点后其误差出现指数性上升,该模型多项式增加到五项时出现了过拟合现象(overfitting)。
为防止这种情况,需要经过多组对比之后取一个loss函数最低点时的model形式。

过拟合:由于过于紧密精确的匹配特定数集(Training data),以至于model无法良好的拟合其他数集,model泛化率低,违反了奥可姆剃刀原则。
泛化率:即model对新样本数据的适应能力,体现了模型能否很好的学习数据背后的规律,总结出合适Function从而预测出合理的输出值。(评判泛化率高低最直观的就是overfitting/underfitting)

(3)过拟合应对办法:正则化纠偏(Regularization)
在这里插入图片描述
在原有的Loss Function中引入正则项(惩罚系数以及与Function参数相关的项)

由于Loss函数只考虑训练集的经验风险而忽视了面对新数据集的结构风险,因此为了防止过拟合导致的结构风险,需要向Loss Function中加入能够描述model复杂程度的正则项,将model原来的经验风险最小化目标转变为新的结构风险最小化目标。

惩罚系数增大,使得与其相乘的方程参数相关项在整个Loss Function中的占比增加,违背了Loss值减小的理念,势必会影响整体参数设定,降低了权重系数w,弱化了输入变化的影响,提高了方程在面对input noises时的应对能力。

  1. 多特征model (Linear model)
    在这里插入图片描述

在这里插入图片描述

  1. 预测误差来源(error due to “bias,variance”)
    在这里插入图片描述

定义f帽为实际的目标预测值,f※为所设计model的数据预测值,先求出f星整体的数学期望,表示设计model的预测目标。
期望与f帽的距离表示model的预测值与实际目标的偏差,期望与f星的离散程度表示model的拟合程度。

低方差低偏差图,表示所设计model的预测目标与实际预测目标吻合,且Function的拟合率合适,函数复杂程度始终,具有很小的结构化风险;
高偏差低方差:表model的函数参数过少,无法很好的表达出需要预测的所有特征,导致拟合度过低,偏差过大,函数复杂程度低,欠拟合;
高方差低偏差:函数拟合度过高,模型预测目标与实际目标吻合,但由于过拟合,导致新导入数据的预测值偏差过大,离散程度低;
高方差高偏差:模型欠拟合且设计模型无法很好预测目标;

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值