欠拟合和过拟合 Underfitting and Overfitting
似然方程 Likelihood Function
定义似然方程,表示在已知输入的情况下,输出为y的概率
为使结果准确,我们希望在输入x的情况下预测出y的概率最大。
定义对数似然函数log likelihood function l(θ),即对L(θ)取对数
注意到化简后第一项在概率分布确定的情况下为一常数,因此追求对数似然函数的最大值即追求等式第二项的最小值,这与之前的损失方程是一致的。
以上可以理解为损失函数的概率解释。
局部加权线性回归 Locally Weighted Linear Regression
这一算法考虑的思路如下,输入一个未知的x(测试集),与x距离更近的训练集输入对其的参考价值越大,特殊情况,若测试输入与训练集中一个输入相同,即其距离为0,则测试的输出应该就是训练的输出(因为是两个完全一样的输入)。
简而言之,即考虑了函数整体较为平滑,以局部的拟合代替对整体的拟合。这一算法的具体做法如下
1. Fit θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]
2. Output θ^T*X
这一算法输出的就是对测试集的预测,那么问题在于,如何设置权重。
权重的设置应满足两点距离越近,则权值越大,越远则越小,更好的情况是,当两者完全重合时(即一样时),令权值为1,当两者差异很大时(距离为无穷大),令权值为0,可令权值方程如下
w(i) = exp(-((x(i)-x))^2/(2*τ^2))
τ控制了权重下降的速度,称为带宽Bandwidth
非参数算法Non-parametric Algorithm
局部加权线性回归算法是一种非参数算法,这种算法的参数随训练集的个数m变化。
逻辑方程 Logistic Regression
之前我们讨论的是y取离散值时的情况,我们可以将之称为预测问题,也可以称为回归问题(或者其他什么问题,只要其结果取值为连续值就好)。对于结果为离散值的情况,最简单的即为{0,1},我们将其成为分类问题(Classification Problem),也就是说我们将结果分为几个类,然后将测试集的数据分别归类到不同的类中。在这种情况下,之前讨论的连续函数将不再适合这一问题,我们希望得到在类别分界点突变的函数,一个典型的函数便是逻辑函数。
分类问题的参数函数的表达式如下
其中的函数g为,即传说中的逻辑函数 Logistic Function,也称为Sigmoid Function
逻辑函数的图像如下
g()函数有一些特殊的特性,比如其导数可以用下面这一方法求出
在二分类问题中,我们可以假设h(x;θ)用来表示在参数θ的条件下,y为1的概率,因此可定义两个情况发生的概率
考虑到y的值的影响,可将这两个方程联合起来,为
此时可定义似然函数L(θ)
并求出对数似然函数
为了得到θ的更新策略,仿照之前线性回归的方法,我们对对数似然函数求导
因此θ的更新策略为θj = θj + α*(y(i)-h(x(i);θ))*x(i)j