反向传播和梯度消失

本文探讨了经验风险最小化在机器学习中的应用,介绍了常见的损失函数,如0-1损失、平方损失、对数损失和Hinge损失。重点讨论了深度学习训练中的梯度消失问题,分析了sigmoid激活函数导致梯度消失的原因,并提出了Relu、Maxout激活函数以及Batch Normalization作为解决方案。同时,文章也提到了过拟合现象及其预防措施,如正则化和Dropout策略。
摘要由CSDN通过智能技术生成

注:最近想把以前写的笔记拿出来整理一下,因为是直接从蚂蚁笔记复制粘贴过来的,所以格式上可能有些不规范,将就着看看吧,懒得再改了……

一、经验风险最小化

统计机器学习算法由模型、策略和算法三个要素构成,当选择了一种算法模型后,下一步就要考虑选择什么样的策略或准则来最优化模型

损失函数是机器学习中用于衡量模型一次预测结果好坏的目标函数

常用的损失函数有:
1、0-1损失函数:非凸函数,只关心预测值和真实值是否相同,没有关系他们之间的距离或误差,有很多不足
2、平方损失函数:线性回归模型常用的最优化目标函数,L(y,f(x))=(y-f(x))^2
3、对数损失函数:分类模型常用的最优化目标函数,L(y,f(x))=-lnp(y|x)
4、Hinge损失函数:最大间隔目标函数,是SVM采用的最优化目标函数,L(y,f(x))=max(0,1-y*f(x))
对于任意给定的损失函数,可以求得平均意义下的期望损失函数,期望损失函数也称为期望风险函数
Rexp(f)=E(L(y,f(x)))=∫L(y,f(x))P(x,y)dxdy

机器学习的目标就是使期望风险函数最小,但由于联合分布函数P(x,y)是不知道的,因此在实际应用中,通常的优化目标是经验风险最小化。
例如,给定训练数据集:T={(x1,y1),(x2,y2),(x3,y3),……(xn,yn)}
模型f(x)关于训练数据集T的经验风险函数为:Remp(f)=1/N*∑L(yi,f(xi))
由大数定理可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值