prml知识点记录

通常系数w0从正则化项中省略,因为包含w0会使结果依赖于目标变量原点的选择。w0也可以被包含在正则化项中,但是必须有自己的正则化系数。


在高斯噪声的假设下,平方和误差函数是最大化似然函数的一个自然结果

最大化后验概率等价于最小化正则化的平方和误差函数

期望损失= 偏置2 + 方差 + 噪声

等价核,通过 对训练集里目标值进行线性组合做预测,被称为线性平滑

Hessian矩阵正定,函数是凸函数

如果class conditional distribution是具有相同的协方差矩阵的高斯分布,则可推出后验概率公式中,二类(sigmoid)和多类(softmax),激活函数里是输入X的线性形式

如果假设目标变量的条件分布来自于指数族分布, 对应的激活函数选为标准链接函数(canonical link function),则 数据点n对误差函数的贡献关于参数向量w求导数的形式为“误差”yn-tn 特征向量ϕn的乘积,其中 yn = wTϕn

使用softmax作为激活函数,当w成比例放大时,误差函数不变,所以误差函数在权空间的某些方向上是常数。如果给误差函数加一个恰当的正则化项,就能避免这个问题

偏置不出现在神经网络的正则化项中

应对神经网络过拟合的方法:正则化( 不满足神经网络的linear transformation invariance要求 ),早停止

神经网络应对不变性:变化输入,增加对变换的正则化项,抽取变换下不发生变化的特征,把不变性整合到神经网络的构建中(局部接收场和共享权值)

svm是一个 discriminant function( discriminant function、 discriminant model、 generative model ),但区别于高斯过程,SVM训练后只需要保存部分数据(support vector),是稀疏的

RVM是一个discriminant model,训练得到后验概率。 RVM得到的结果一般比SVM更稀疏,因此更加有利prediction的效率。

指数损失函数(AdaBoost)和交叉熵损失函数(softmax、logistic)对比:指数损失函数对负的t*y(x)惩罚较大(指数增长),区别于交叉熵损失函数的线性增长。所以指数损失函数对异常点不鲁棒。而且指数损失函数不能表示成概率模型的似然函数,也无法推广到多类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值