prml知识点记录

最新推荐文章于 2021-04-13 22:06:15 发布

kaka19880812

最新推荐文章于 2021-04-13 22:06:15 发布

阅读量505

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaka19880812/article/details/50961445

版权

机器学习专栏收录该内容

31 篇文章 0 订阅

订阅专栏

通常系数w0从正则化项中省略，因为包含w0会使结果依赖于目标变量原点的选择。w0也可以被包含在正则化项中，但是必须有自己的正则化系数。

在高斯噪声的假设下，平方和误差函数是最大化似然函数的一个自然结果

最大化后验概率等价于最小化正则化的平方和误差函数

期望损失= 偏置2 + 方差 + 噪声

等价核，通过对训练集里目标值进行线性组合做预测，被称为线性平滑

Hessian矩阵正定，函数是凸函数

如果class conditional distribution是具有相同的协方差矩阵的高斯分布，则可推出后验概率公式中，二类（sigmoid）和多类（softmax），激活函数里是输入X的线性形式

如果假设目标变量的条件分布来自于指数族分布，对应的激活函数选为标准链接函数（canonical link function），则数据点n对误差函数的贡献关于参数向量w求导数的形式为“误差”yn-tn 特征向量ϕn的乘积，其中 yn = wTϕn

使用softmax作为激活函数，当w成比例放大时，误差函数不变，所以误差函数在权空间的某些方向上是常数。如果给误差函数加一个恰当的正则化项，就能避免这个问题

偏置不出现在神经网络的正则化项中

应对神经网络过拟合的方法：正则化（不满足神经网络的linear transformation invariance要求），早停止

神经网络应对不变性：变化输入，增加对变换的正则化项，抽取变换下不发生变化的特征，把不变性整合到神经网络的构建中（局部接收场和共享权值）

svm是一个 discriminant function（ discriminant function、 discriminant model、 generative model ），但区别于高斯过程，SVM训练后只需要保存部分数据（support vector），是稀疏的

RVM是一个discriminant model，训练得到后验概率。 RVM得到的结果一般比SVM更稀疏，因此更加有利prediction的效率。

指数损失函数（AdaBoost）和交叉熵损失函数（softmax、logistic）对比：指数损失函数对负的t*y(x)惩罚较大（指数增长），区别于交叉熵损失函数的线性增长。所以指数损失函数对异常点不鲁棒。而且指数损失函数不能表示成概率模型的似然函数，也无法推广到多类。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。