《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》浅析

最新推荐文章于 2022-05-28 15:52:43 发布

SummerHmh

最新推荐文章于 2022-05-28 15:52:43 发布

阅读量192

点赞数

分类专栏：论文阅读系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SummerHmh/article/details/91506347

版权

论文阅读系列专栏收录该内容

5 篇文章 0 订阅

订阅专栏

开头强推一篇，写得很赞：https://cloud.tencent.com/developer/article/1389555

摘要

从题目上就可以看出此篇论文的内容，如下
目的：Language Understanding，此结构是服务与语言理解
方式：Deep Bidirectional Transformers，采用的方式是深度双向Transformers
用法：Pre-training，训练的结果作为预训练的模型或者输入特征

正题：
BERT特点：通过左右上下文双向深度来进行预训练的语言表征模型
BERT应用：可添加一个输出层进行微调，然后就可以创建具有the-state-of-the-art的应用

发展

语言预训练模型提升了很多NLP任务的效果。这些任务包括句子级别的语言推理和解释，通过正题分析来预测句子之间的关系，以及token级别的任务，如实体识别等。具体有两种策略

feature-based：嵌入；下游模型的特征输入
- 预选训练的词嵌入：ELMo—使用定制化的体系结构，用预先训练的表示作为附加功能
- 句子嵌入
- 段嵌入
fine-tuning：不用从头开始学习很多参数
- OpenAI GPT : 引入了最小的特定参数，并通过简单微调预先训练的参数来训练下游任务

特点：

训练期间共享相同的目标函数
使用单向语言模型

局限：
当前的技术严重的限制了云训练表示的效果，尤其是微调方法。比如单向的模型限制了框架的选择，这种方式对于句子级别不是最优的，在QA中可能会产生问题。

本文：

双向模型：MLM训练机制——随机遮挡输入的token，融合左右上下文，可进行双向Transformer
NSL训练机制——联合预训练文本对表示

模型

多层双向Transformer Encoder
这个模型是ttransformer 的encoder部分，自注意力机制后输入多头注意力模型

代码解读

https://www.processon.com/view/link/5d063d73e4b00d2a1ac7bf06
代码相对来说，比较简单，关键的是在训练过程的量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SummerHmh CSDN认证博客专家 CSDN认证企业博客

码龄6年

71: 原创

32万+: 周排名

174万+: 总排名

3万+: 访问

: 等级

1036: 积分

13: 粉丝

16: 获赞

3: 评论

58: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机森林
虚幻私塾: 这么详细，花了多少时间哦，太厉害了，流弊
pyspark之DataFrame写hive表方式
西门郡丞: 为什么我在使用静态分区插入的时候，仍然得到如下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o264.saveAsTable. : org.apache.spark.SparkException: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict at org.apache.spark.sql.hive.execution.InsertIntoHiveTable.processInsert(InsertIntoHiveTable.scala:157) at org.apache.spark.sql.hive.execution.InsertIntoHiveTable.run(InsertIntoHiveTable.scala:99) at org.apache.spark.sql.hive.execution.CreateHiveTableAsSelectCommand.run(CreateHiveTableAsSelectCommand.scala:88) at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:104) at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102) 插入语句： df.write.mode("append").format("Hive").partitionBy("advertiser", "begindate").saveAsTable("warehouse.warehouse_order_log_test")
《ERNIE: Enhanced Language Representation with Informative Entities》浅析
∞+1: 很赞！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。