Softmax层技术

big_matster

于 2022-10-31 15:00:15 发布

阅读量426

点赞数

分类专栏：各种层技术收集——设计自己的模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuxingseng123/article/details/127615054

版权

各种层技术收集——设计自己的模型专栏收录该内容

2 篇文章 0 订阅

订阅专栏

softmax层的使用

什么是softmax

在分类任务中，我们通过一个模型得到一个输出向量， $vec = (v_1,v_2,...,v_n)$ ,往往不是一个概率分布，即 $\sum_{i = 1}^{n}v_i \not =1$ , 这在我们人看就是不直观的结果，为了解决这个问题，我们利用指数函数得到新向量：
$(\frac{\exp{v_i}}{\sum_{j = 1}^{n}{}\exp{v_j}})^n_{i = 1}$

这时候，distrbution显然满足概率分布的条件。

为什么这么做？

其中一个原因指数函数是增长非常块的函数，想让一个主元素的概率尽可能突出出来，这种设计就让我们可以将主要的概率集中在原始数据较大的分量上，换句话说，通过softmax，我们拉大了分量之间的差距。

直观

在单分类任务的时候能够直接锁定倾向的类别。

缺点

在进行模型训练的时候，特别是分类数量特别大的情形（比如200个类别），由于模型参数最开始是随机设置的，概率会集中在随机的类别上。同时，由定义可知，当某个分量的softmax值趋近0的时候，其梯度也趋于0，导致难以更新参数。

建议

在分类数量小的时候可以在分类层最后添加一个softmax,但是比较多的时候最好别加，另外，由于缺点所述，很多情况下在模型尾部加上一个Softmax 可能会减缓模型的训练速度。

学习心得

会自己构建模型的时候，添加自己的softmax层技术，全部都将其搞定。设计自己的模型架构，全部慢慢地完成都行啦的理由与打算。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Softmax层技术

会自己慢慢地将各种技术全部都给其整理完成，然后慢慢的设计出自己的模型都行啦的样子与打算。
复制链接

扫一扫

专栏目录

博客等级

码龄5年

257
原创

234
点赞

1165
收藏

123
粉丝

关注

私信

热门文章

分类专栏

最新评论

LSTM和双向LSTM讲解及实践
weixin_40901147: 写得是真的好，很清晰。细胞状态就纪录语境（主题）变迁的变量，隐藏状态就是纪录注意力信息的变量（语法，用词）。新的细胞状态由新输入状态和过去的细胞状态隐藏状态决定，就是要细致分辨主题的变化，这是遗忘门和输入门的合作原理。新的隐藏状态是由新的细胞状态（新主题）和新的输入状态决定，这是输出门的工作原理。这决定了此刻此句话的意思。一个圆形相当于一个LSTM块。双向LSTM就是，若干句话顺着读产生上文语境，反着读产生下文语境，分别有上文细胞状态列和下文细胞状态列，对应输入状态产生产生上文隐藏和下文隐藏状态，对应着上下文的特征。共同决定此处特征。
open-set recognition(OSR)开集识别
qq_37441443: UKCS(unknown known classed)该怎么理解,能给个具体的例子吗
LSTM和双向LSTM讲解及实践
境界面上的双曲线: 你可以去看一下CNN+LSTM的网络结构
医疗实体及关系识别挑战赛
qq_43894281: 博主，您有这个数据集麽？如果有的话，可以发我一份麽？我找了好久都没有找到
open-set recognition(OSR)开集识别
dkdkdskk: Recent Advances in Open Set Recognition

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

big_matster 您的鼓励，是给予我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。