BERT书籍阅读笔记(一)NLP基础知识

常见的中文分词工具

结巴分词,清华分词,hanlp,LTP,Stanford NER
  除了Stanford NER需要加载jar包以外,其他的用pip都可以直接安转使用

激活函数

ReLU->GELU, Swish, Mish。
  GELU被广泛用于预训练语言模型当中,如BERT家族、GPT等。Swish函数为GELU函数的一个特例,Mish函数是Swish函数的优化版(自我认为)。
  Swish函数和Mish函数,都是在ReLU函数的基础上进一步优化所产生的的,所以它们在深层神经网络中的效果更加出色。实验标明,Mish函数会优于Swish函数。

批量归一化

  一般用于全连接层或卷积神经网络中。其目的是将每一层运算出来的数据都归一化成均值为0、方差为1的标准高斯分布。这样就可以在保留样本分布特征的同时,又消除了层与层间的分布差异。

批量归一化与激活函数在模型中的前后关系

  批量归一化与激活函数在模型中的前后关系,本质上为值域间的变换关系。要避免数据落入激活函数的“饱和区间”,即斜率为0的区间。比如,如果激活函数为Sigmoid函数,则应当将BN处理放在激活函数的前面,从而使得数据的值域为-1~1。
  虽然BN并没有破坏数据的分布特征,但从符号角度来看,破坏了原有分布的正负比例,因此对于ReLU函数来讲,BN层适合放在其后面,从而不会影响到ReLU。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值