【三】欠拟合与过拟合

欠拟合和过拟合 Underfitting and Overfitting

在上一讲介绍的回归问题中,一个重要的问题是回归函数的选择,既可以用线性函数进行回归,也可以使用二次函数甚至更高次的函数,函数的次数就可以理解为参数的个数,也称为 特征集的个数(因为系数越多表明考虑的“因素”越多,即特征集越大)。如下列三种对数据集拟合的方法:

这一图片是对同一数据集的拟合,很明显,中间的函数大致反映了数据集的变化趋势,但也存在一些误差,尚在我们可接受的范围之内。左侧的图片使用线性函数进行拟合,相比之下并没有中图所呈现的效果好,其误差很大很明显,且没有体现出数据的变化趋势,称为 欠拟合;右图使用了很高次的回归方程,对每一个点的回归都很准确,但这与真实的情况相差很远,因为真实的情况不会出现频繁的波动,使用高次的函数进行回归,使用训练集的结果会得到很高的准确率,但泛化能力较差,对训练集之外的数据波动很大,称为 过拟合

似然方程 Likelihood Function

定义似然方程,表示在已知输入的情况下,输出为y的概率



为使结果准确,我们希望在输入x的情况下预测出y的概率最大。

定义对数似然函数log  likelihood function l(θ),即对L(θ)取对数

注意到化简后第一项在概率分布确定的情况下为一常数,因此追求对数似然函数的最大值即追求等式第二项的最小值,这与之前的损失方程是一致的。

以上可以理解为损失函数的概率解释


局部加权线性回归 Locally Weighted Linear Regression

这一算法考虑的思路如下,输入一个未知的x(测试集),与x距离更近的训练集输入对其的参考价值越大,特殊情况,若测试输入与训练集中一个输入相同,即其距离为0,则测试的输出应该就是训练的输出(因为是两个完全一样的输入)。

简而言之,即考虑了函数整体较为平滑,以局部的拟合代替对整体的拟合。这一算法的具体做法如下

1. Fit  θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]

2. Output θ^T*X

这一算法输出的就是对测试集的预测,那么问题在于,如何设置权重。

权重的设置应满足两点距离越近,则权值越大,越远则越小,更好的情况是,当两者完全重合时(即一样时),令权值为1,当两者差异很大时(距离为无穷大),令权值为0,可令权值方程如下

w(i) = exp(-((x(i)-x))^2/(2*τ^2))

τ控制了权重下降的速度,称为带宽Bandwidth


非参数算法Non-parametric Algorithm

局部加权线性回归算法是一种非参数算法,这种算法的参数随训练集的个数m变化。


逻辑方程 Logistic Regression

之前我们讨论的是y取离散值时的情况,我们可以将之称为预测问题,也可以称为回归问题(或者其他什么问题,只要其结果取值为连续值就好)。对于结果为离散值的情况,最简单的即为{0,1},我们将其成为分类问题(Classification Problem),也就是说我们将结果分为几个类,然后将测试集的数据分别归类到不同的类中。在这种情况下,之前讨论的连续函数将不再适合这一问题,我们希望得到在类别分界点突变的函数,一个典型的函数便是逻辑函数。

分类问题的参数函数的表达式如下


其中的函数g为,即传说中的逻辑函数 Logistic Function,也称为Sigmoid Function

逻辑函数的图像如下


g()函数有一些特殊的特性,比如其导数可以用下面这一方法求出


在二分类问题中,我们可以假设h(x;θ)用来表示在参数θ的条件下,y为1的概率,因此可定义两个情况发生的概率


考虑到y的值的影响,可将这两个方程联合起来,为

此时可定义似然函数L(θ)


并求出对数似然函数


为了得到θ的更新策略,仿照之前线性回归的方法,我们对对数似然函数求导


因此θ的更新策略为θj = θj + α*(y(i)-h(x(i);θ))*x(i)j


感知学习算法 Perceptron Learning Algorithm

感知学习算法是另一种实现分类算法的方式,不同于逻辑回归算法,其定义阈值函数为

这一函数在分界点变化更陡峭,可认为信号处理中的阶梯函数,但显然其不像逻辑函数一样有函数表达式。
感知学习算法的更新方程与逻辑回归的相同,为θj = θj + α*(y(i)-h(x(i);θ))*x(i)j

//这里是分割线~
//顺便给自己的公众号打个广告,希望大家多多关注~
//关注我的公众号可以看到更多有意思的东西哦~

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值