一定不可忘记的深度学习物语
文章平均质量分 94
Hoshino Ren
这个作者很懒,什么都没留下…
展开
-
『Batch Normalization』Batch Normalization一文吃透
本文较为详尽地介绍了Batch Normalization所解决的问题及其原理,建议不了解BN的小伙伴们阅读一下。原创 2022-05-31 14:02:00 · 2124 阅读 · 4 评论 -
『参数初始化』开局一个神经网络,初始值全靠随机
一文介绍参数初始化的各种讲究以及常用参数初始化方法,以及其在PyTorch中的应用。原创 2022-04-10 18:30:30 · 1935 阅读 · 0 评论 -
『Transformer/BERT』Transformer和BERT的位置编码
Transformer和BERT的位置编码为什么要对位置进行编码?Position Embedding in TransformerPosition Embedding in BERT两者之间的区别如何延拓BERT的位置编码?参考为什么要对位置进行编码?Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token的顺序,最后所得到的Attention结果也不会变,这会丢失语言中的时序信息,因此需要额外对位置进行编码以引入时序信息原创 2022-04-08 20:57:44 · 5210 阅读 · 0 评论 -
『Transformer』为什么1*1卷积可以替代全连接层?
在Transformer中,作者在论文中提了一句,可以用1*1卷积代替全连接,那么为什么1*1卷积操作可以等价于全连接操作呢?本文就是为了解决这一疑惑而诞生的。原创 2022-04-02 18:08:55 · 5862 阅读 · 1 评论