ML/DL/NLP
文章平均质量分 81
记录提醒自己
qq_37357873
这个作者很懒,什么都没留下…
展开
-
梯度爆炸、梯度消失、过拟合
文章目录什么是梯度弥散和消失LSTM怎么防止梯度弥散和消失解决过拟合的方法1.lambdalambdalambda正则化(NN称权重衰减)2.dropout正则化3.early stop4.数据扩增5.Relu什么是梯度弥散和消失随着传播深度的增加,梯度大小呈指数级别的增大或减小梯度弥散:一般是由于激活函数进入饱和区,导数变得很小,因为梯度的计算需要激活函数的导数,导数很小使得梯度很小LSTM怎么防止梯度弥散和消失1.梯度弥散根据链式求导法则,这种形式直接导致梯度被表示为连积的形式,以致于造成梯原创 2021-01-29 22:35:55 · 509 阅读 · 0 评论 -
pytorch bert预训练(调用transformer)
文章目录1-遮蔽语言模型、句子预测任务、问答任务1.遮蔽语言模型[2-三种类 BertTokenizer、BertModel、BertForMaskedLM](https://blog.csdn.net/ccbrid/article/details/88732857)3. bert output的源码解释Bert 详解-非简体(排版好看)bert相关资源整理-原理篇1-遮蔽语言模型、句子预测任务、问答任务1.遮蔽语言模型model_name = 'bert-base-chinese'原创 2020-12-30 14:45:16 · 1751 阅读 · 0 评论