- 博客(4)
- 收藏
- 关注
转载 优化器
sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。 转载于:https://www.cnblogs.com/zhufz/p/1135243...
2019-08-14 15:49:00 99
转载 batch normalization 与 layer normalization
bn和ln的本质区别: batch normalization是纵向归一化,在batch的方向上对同一层每一个神经元进行归一化,即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化,即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别: 1.如果batch size过小,那么得到的统计量难以反应全局信息,因此不...
2019-08-14 15:46:00 242
转载 nlp四大任务(分类、匹配、序列标注、文本生成)集成项目
介绍 本项目支持的NLP任务包括 分类、匹配、序列标注、文本生成等. - 对于分类任务,目前支持多分类、多标签分类,通过选择不同的loss即可。 - 对于匹配任务,目前已支持交互模型和表示模型。 - 对于NER任务,目前已支持rnn+crf,idcnn+crf以及bert+crfgit地址:https://github.com/zhufz/nlp_research 数...
2019-08-10 16:05:00 1317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人