BERT书籍阅读笔记（一）NLP基础知识

最新推荐文章于 2024-08-05 20:56:48 发布

jst100

最新推荐文章于 2024-08-05 20:56:48 发布

阅读量839

点赞数

文章标签：自然语言处理 bert 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jst100/article/details/122713905

版权

文章目录

常见的中文分词工具

结巴分词，清华分词，hanlp，LTP，Stanford NER
除了Stanford NER需要加载jar包以外，其他的用pip都可以直接安转使用

激活函数

ReLU->GELU, Swish, Mish。
GELU被广泛用于预训练语言模型当中，如BERT家族、GPT等。Swish函数为GELU函数的一个特例，Mish函数是Swish函数的优化版（自我认为）。
Swish函数和Mish函数，都是在ReLU函数的基础上进一步优化所产生的的，所以它们在深层神经网络中的效果更加出色。实验标明，Mish函数会优于Swish函数。

批量归一化

一般用于全连接层或卷积神经网络中。其目的是将每一层运算出来的数据都归一化成均值为0、方差为1的标准高斯分布。这样就可以在保留样本分布特征的同时，又消除了层与层间的分布差异。

批量归一化与激活函数在模型中的前后关系

批量归一化与激活函数在模型中的前后关系，本质上为值域间的变换关系。要避免数据落入激活函数的“饱和区间”，即斜率为0的区间。比如，如果激活函数为Sigmoid函数，则应当将BN处理放在激活函数的前面，从而使得数据的值域为-1~1。
虽然BN并没有破坏数据的分布特征，但从符号角度来看，破坏了原有分布的正负比例，因此对于ReLU函数来讲，BN层适合放在其后面，从而不会影响到ReLU。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT书籍阅读笔记（一）NLP基础知识

复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。