dituo8199-CSDN博客

转载 transformer-xl

转载于:https://www.cnblogs.com/zhufz/p/11365149.html

2019-08-16 17:14:00 240

转载优化器

sgd，adagrad支持了自适应学习率，通过累积历史平方梯度，对学习率进行缩放达到自适应的效果；rmsprop加了一个累积值的衰减策略，adam不光加了平方梯度累积值的衰减，还加了梯度累积值的衰减。nag是带动量的sgd（nesterov+sgd），而nadam是带动量的adam。转载于:https://www.cnblogs.com/zhufz/p/1135243...

2019-08-14 15:49:00 99

转载 batch normalization 与 layer normalization

bn和ln的本质区别： batch normalization是纵向归一化，在batch的方向上对同一层每一个神经元进行归一化，即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化，即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别： 1.如果batch size过小，那么得到的统计量难以反应全局信息，因此不...

2019-08-14 15:46:00 242

转载 nlp四大任务(分类、匹配、序列标注、文本生成)集成项目

介绍本项目支持的NLP任务包括分类、匹配、序列标注、文本生成等. - 对于分类任务，目前支持多分类、多标签分类，通过选择不同的loss即可。 - 对于匹配任务，目前已支持交互模型和表示模型。 - 对于NER任务，目前已支持rnn+crf,idcnn+crf以及bert+crfgit地址：https://github.com/zhufz/nlp_research 数...

2019-08-10 16:05:00 1317

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 transformer-xl

转载 优化器

转载 batch normalization 与 layer normalization

转载 nlp四大任务(分类、匹配、序列标注、文本生成)集成项目

空空如也

空空如也

转载优化器