激活函数、损失函数与超参数

激活函数:
激活函数的特点:
输入:标量,
输出;标量
很多激活函数如果画图,都是S形的,称为Sigmoid函数。
常见的有6种:
1.线性变换Linear:f(x) = Wx,用于输入层。直线。
2.Sigmoid函数:可以减少极端值而不用移除它们。0-1之间的S形渐近线。把x的正负无穷转为y的0-1,大多数都在0或1附近。为每个类输出一个独立概率。
人还是车?用sigmoid函数 ,是人吗?是车吗?
3.Tanh:tanh(x) = sinh(x) / cosh(x). 双曲线三角函数,形状类似Sigoid,但值域在[-1,1],可以处理负值。
4.Hard Tanh:与Tanh类似,x>1,视为1,x<-1视为-1.
5.Softmax:逻辑回归的一般化,可用于连续数据,可处理多决策边界。返回互斥类的概率分布。是大人吗?: 60% 是小孩吗?:40%   Pi= Vi/V的总和
总结:sigmoid将一个real value映射到(0,1)的区间(当然也可以是(-1,1)),这样可以用来做二分类。 
而softmax把一个k维的real value向量(a1,a2,a3,a4….)映射成一个(b1,b2,b3,b4….)其中bi是一个0-1的常数,然后可以根据bi的大小来进行多分类的任务,如取权重最大的一维。 
一种变形为hierarchical softmax,把标签拆为树形分类,在每个节点上用softmax.
6.Rectified Linear (ReLU):f(x) = max(0, x),可处理坡度消失或爆炸的问题,比sigmoid和tanh好使。
7.Leaky ReLU:f(x)=x if x>0 else f(x)=0.01x
8.Softplus:ReLU的光滑版本。f(x) = ln[ 1 + exp(x) ]
小结:
对于输入层激活函数,常见的是线性;其它各层主要看模型任务,如果是0-1分类,首选ReLU或其变体,再考虑S形激活函数,如Sigmoid函数。如果是多分类任务,选择softmax. softmax还适用于连续值预测。




损失函数:
损失函数的值只依赖于权重W和偏好b,也就是网络状态。
适用于回归任务的损失函数常见四种:
1. 均值平方差MSE。欧几里德距离,是一个意思。是凸形损失函数。但在隐藏层无效,此时对于参数有多个解。使用广泛,但对例外样本敏感。
预测值-实际值, 后面的公式都在这上面做文章。
2. MAE Mean absolute error loss, 不平方了,用绝对值。使用广泛。
3. MSLE Mean squared log error: 先对数一下预测值和实际值,然后和MSE一样(再求差,求平方)
4. MAPE Mean absolute percentage error: 在MAE的基础上,除个实际值,乘100.
当输出范围较大时,考虑第三、四种损失函数。但更多的时候是先标准化输出,再使用第一、二种。


适用于分类任务的损失函数:
1.Hinge loss  0-1分类中常用,是凸形损失函数。
2.Logistic loss  
当类别数k = 2 时,softmax 回归退化为 logistic 回归。这表明 softmax 回归是 logistic 回归的一般形式。参见:http://blog.csdn.net/zhangliyao22/article/details/48379291
预测最大的可能性。 二元分类
3.Negative log likelihood 当类别大于2时,就是交叉熵.是效果较好的分类损失函数。


适用于重建的损失函数:限受波尔兹曼机,自动解码器等。

1. KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy)





超参数:
与模型参数不同,超参数是为了让模型更好更快,处理模型优化和模型选择,保证模型不欠拟合和过拟合。
1. 学习率: 大的误差,大的坡度,大的学习率会导致大的step. 但大的学习率会导致模型在最优点两边来回跳。使用一个适中的静态学习率,然后试两个方向。更好的方法是学习率随时间变化。
2. 正则化Regularization。主要为了控制过拟合。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
L2范数: ||W||2。它也不逊于L1范数,它有两个美称,在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减weight decay”。
3.动量Momentum:有助全局优化。
4.稀疏参数Sparsity:对于某些输入,只有某些特征相关。阻止网络学习,与bias在这一点上相反。
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
超参数是在模型训练之前设置的参数,它们不是通过训练数据学习得到的,而是由人为设定的。在损失函数中,常见的超参数设置包括学习率、正则化参数等。学习率是控制模型在每次迭代中更新参数的步长,它决定了模型在训练过程中的收敛速度和稳定性。通常情况下,较小的学习率可以使模型更加稳定,但可能导致训练过程较慢;而较大的学习率可以加快训练速度,但可能导致模型不稳定。正则化参数用于控制模型的复杂度,它可以防止模型过拟合训练数据。较大的正则化参数可以使模型更加简单,但可能导致欠拟合;而较小的正则化参数可以使模型更加复杂,但可能导致过拟合。因此,在设置超参数时需要根据具体问题和数据集的特点进行调整,以达到最佳的模型性能。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *3* [神经网络中重要的概念(超参数激活函数损失函数、学习率等)](https://blog.csdn.net/weixin_43981621/article/details/117250525)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【深度学习】——分类损失函数、回归损失函数、交叉熵损失函数、均方差损失函数损失函数曲线、](https://blog.csdn.net/qq_45769063/article/details/119901710)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值