- 博客(4)
- 收藏
- 关注
转载 优化器
sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。转载于:https://www.cnblogs.com/zhufz/p/1135243...
2019-08-14 15:49:00 95
转载 batch normalization 与 layer normalization
bn和ln的本质区别:batch normalization是纵向归一化,在batch的方向上对同一层每一个神经元进行归一化,即同一层每个神经元具有不同的均值和方差。layer normalization 是横向归一化,即同一层的所有神经元具有相同的均值和方差。bn和ln的使用区别:1.如果batch size过小,那么得到的统计量难以反应全局信息,因此不...
2019-08-14 15:46:00 232
转载 nlp四大任务(分类、匹配、序列标注、文本生成)集成项目
介绍本项目支持的NLP任务包括 分类、匹配、序列标注、文本生成等.- 对于分类任务,目前支持多分类、多标签分类,通过选择不同的loss即可。- 对于匹配任务,目前已支持交互模型和表示模型。- 对于NER任务,目前已支持rnn+crf,idcnn+crf以及bert+crfgit地址:https://github.com/zhufz/nlp_research数...
2019-08-10 16:05:00 1252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人