常见的中文分词工具
结巴分词,清华分词,hanlp,LTP,Stanford NER
除了Stanford NER需要加载jar包以外,其他的用pip都可以直接安转使用
激活函数
ReLU->GELU, Swish, Mish。
GELU被广泛用于预训练语言模型当中,如BERT家族、GPT等。Swish函数为GELU函数的一个特例,Mish函数是Swish函数的优化版(自我认为)。
Swish函数和Mish函数,都是在ReLU函数的基础上进一步优化所产生的的,所以它们在深层神经网络中的效果更加出色。实验标明,Mish函数会优于Swish函数。
批量归一化
一般用于全连接层或卷积神经网络中。其目的是将每一层运算出来的数据都归一化成均值为0、方差为1的标准高斯分布。这样就可以在保留样本分布特征的同时,又消除了层与层间的分布差异。
批量归一化与激活函数在模型中的前后关系
批量归一化与激活函数在模型中的前后关系,本质上为值域间的变换关系。要避免数据落入激活函数的“饱和区间”,即斜率为0的区间。比如,如果激活函数为Sigmoid函数,则应当将BN处理放在激活函数的前面,从而使得数据的值域为-1~1。
虽然BN并没有破坏数据的分布特征,但从符号角度来看,破坏了原有分布的正负比例,因此对于ReLU函数来讲,BN层适合放在其后面,从而不会影响到ReLU。