通常系数w0从正则化项中省略,因为包含w0会使结果依赖于目标变量原点的选择。w0也可以被包含在正则化项中,但是必须有自己的正则化系数。
在高斯噪声的假设下,平方和误差函数是最大化似然函数的一个自然结果
最大化后验概率等价于最小化正则化的平方和误差函数
期望损失= 偏置2 + 方差 + 噪声
等价核,通过
对训练集里目标值进行线性组合做预测,被称为线性平滑
Hessian矩阵正定,函数是凸函数
如果class conditional distribution是具有相同的协方差矩阵的高斯分布,则可推出后验概率公式中,二类(sigmoid)和多类(softmax),激活函数里是输入X的线性形式
如果假设目标变量的条件分布来自于指数族分布,
对应的激活函数选为标准链接函数(canonical link function),则
数据点n对误差函数的贡献关于参数向量w求导数的形式为“误差”yn-tn
特征向量ϕn的乘积,其中
yn = wTϕn
使用softmax作为激活函数,当w成比例放大时,误差函数不变,所以误差函数在权空间的某些方向上是常数。如果给误差函数加一个恰当的正则化项,就能避免这个问题
偏置不出现在神经网络的正则化项中
应对神经网络过拟合的方法:正则化(
不满足神经网络的linear transformation invariance要求
),早停止
神经网络应对不变性:变化输入,增加对变换的正则化项,抽取变换下不发生变化的特征,把不变性整合到神经网络的构建中(局部接收场和共享权值)
svm是一个
discriminant function(
discriminant function、
discriminant model、
generative model
),但区别于高斯过程,SVM训练后只需要保存部分数据(support vector),是稀疏的
RVM是一个discriminant model,训练得到后验概率。
RVM得到的结果一般比SVM更稀疏,因此更加有利prediction的效率。
指数损失函数(AdaBoost)和交叉熵损失函数(softmax、logistic)对比:指数损失函数对负的t*y(x)惩罚较大(指数增长),区别于交叉熵损失函数的线性增长。所以指数损失函数对异常点不鲁棒。而且指数损失函数不能表示成概率模型的似然函数,也无法推广到多类。