激活函数、防止过拟合方法、加速训练方法、数据增强

本文介绍了深度学习中的关键概念,包括激活函数(如sigmoid、ReLU及其变种)及其对网络非线性建模能力的影响,防止过拟合的常见方法(增加训练数据、DropOut、Batch Normalization和正则化),以及加速训练的技巧(动量、Nesterov动量、自适应学习率算法)。激活函数的选择对模型性能至关重要,防止过拟合能提升模型泛化能力,而加速训练策略则有助于提高模型训练效率。
摘要由CSDN通过智能技术生成

前言

关于深度学习,看了许久,但是一直没有找个时间把相关知识点总结下来,今天特意督促自己写下所学内容,如有错误,还望指出。

关于深度学习主要介绍以下几点:激活函数、防止过拟合方法、加速训练的方法

激活函数

深度学习中的激活函数主要有sigmoid、tanh、ReLu、Maxout函数等。激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。 一般来说激活函数应该具备以下性质:

可微性: 当优化方法是基于梯度的时候,这个性质是必须的。
单调性: 当激活函数是单调的时候,单层网络能够保证是凸函数。
输出值的范围: 当激活函数输出值是 有限 的时候,基于梯度的优化方法会更加 稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是 无限 的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate

从目前来看,常见的激活函数多是分段线性和具有指数形状的非线性函数

1.Sigmoid

这里写图片描述
f(x)=11+ex f ( x ) = 1 1 + e − x

sigmoid 是使用范围最广的一类激活函数,具有指数函数形状,它在物理意义上最为接近生物神经元。此外,0~1 的输出还可以被表示作概率,或用于输入的归一化,代表性的如Sigmoid交叉熵损失函数。然而,sigmoid也有其自身的缺陷,最明显的就是饱和性。从上图可以看到,其两侧导数逐渐趋近于0 。在后向传递过程中,一旦输入落入饱和区, 梯度值就会变得接近于0,导致了向底层传递的梯度也变得非常小,这会导致训练网络时变得非常慢。此时,网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说, sigmoid 网络在 5 层之内就会产生梯度消失现象此外,sigmoid函数的输出均大于0,使得输出不是0均值,这称为偏移现象,这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。如今,已经很少有人采用sigmoid函数作为激活函数,很大一部分原因是它的梯度消失这一缺点!!!

2.Tanh

这里写图片描述

tanh(x)=sinh(x)cosh(x) t a n h ( x ) = s i n h ( x ) c o s h ( x )

其中:
sinh(x)=exex2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值