![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BERT
文章平均质量分 93
triplemeng
这个作者很懒,什么都没留下…
展开
-
基于的BERT的一些改进模型及思路
基于的BERT的一些改进模型及思路被遗弃的NSPUnderfitted的BERT数据和批大小的作用Drop掉dropout减少参数的技术嵌入层的参数化方法-- 矩阵分解层间共享参数改头换面的MLM动态掩码ELECTRA再次证明分类任务的优势插入链接与图片如何插入一段漂亮的代码片BERT的成功主要在于几大因素:超大模型+超大语料;利用Transformer;新的Loss即MLM(Masked La...原创 2020-01-21 08:05:31 · 7534 阅读 · 1 评论 -
BERT介绍
这篇介绍以下最近大热的[BERT](https://arxiv.org/pdf/1810.04805.pdf),它在11个NLP任务中刷新了成绩,效果确实惊人。原创 2018-10-20 12:32:53 · 86287 阅读 · 10 评论 -
MASS: 一统GPT和BERT的Seq to Seq框架
MASS: 一统GPT和BERT的Seq to Seq框架MASS功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MA...原创 2019-05-20 07:06:09 · 3077 阅读 · 0 评论 -
XLNet:通用自回归预训练方法
XLNetAR和AEXLNet的比较优势Transformer-XLTransformer 到底慢不慢语言模型里的Transformer一句话总结XL相对位置 编码FLowchart流程图导出与导入导出导入BERT(前文有介绍)火了以后XLNet算是首个真正意义上能和其叫板的工作了。在20个任务上都超过BERT,其中很多还是大幅的超越。AR和AE作者首先对今天NLP的主流预训练方法进行了分类...原创 2019-07-05 03:47:32 · 3413 阅读 · 0 评论