BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2024-07-24 21:01:17 发布

big_matster

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量84

点赞数

分类专栏：论文创新及观点文章标签： bert 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuxingseng123/article/details/128650592

版权

论文创新及观点专栏收录该内容

19 篇文章 1 订阅

订阅专栏

摘要

我们介绍一种语言表示模型 $BERT$ ,这是代表 $t r an s f or m er$ 双向编码表示，

设计 $BERT$ 去从无标签样本中预训练深度双向表示，通过共同调节所有层的left and right context
结果，预训练 $BERT$ model ,仅使用一个额外的输出层，来进行微调，对大量广泛的任务创造顶级的模型。比如，问答系统、语言推理、没有足够特定任务的架构调整。
$BERT$ 是一个简单概率但强有力的。其在11个顶级的自然语言处理任务上获得了顶级的效果。包括将 $G LU E$ 得分推高到 $80.5$ 。

介绍

预训练语言模型很有效果，提升了很多自然语言处理任务。

包括

sentence-level tasks such as natural language inference
句子级任务，自然语言推理。
paraphrasing 意译
目的是预测句子间的关系，通过整体的分析它门。
token-level tasks: named entity recognition and question answering,
downstream task 下游任务
feature-based and fine-tuning：基于特征和微调
基于特征的方法**:ELMo、OpenAI GPT**
the auther use a a left-to-right architecture
基于提出的 $BERT$ 模型改善微调。

$B i d i rec t i o na lE n co d er R e p rese n t a t i o n s f ro m T r an s f or m ers .$

双向编码Transformers
a masked language model $M L M$
这篇文章的贡献是
相关工作
Unsupervised Feature-based Approaches
积极的研究领域是：广泛的学习词语的应用表示。
coarser granularities 粗粒度
sentence embedding：句子嵌入
paragraph embeddings: 文段嵌入
denoising 去噪
context-sensitive features: 上下文敏感特性
the robustness of 什么什么的稳健性

Unsupervised Fine-tuning Approaches

在这里插入图片描述

Transfer Learning from Supervised Data

从半监督学习中进行迁移学习
在这里插入图片描述

BERT

pre-training and fine-tuning
a multi-layer bidirectional Transformer encoder：多层的 $T r an s f or m er$ encoder

Pre-training BERT

在这里插入图片描述

Masked LM

在这里插入图片描述

Pre-training data

在这里插入图片描述

Fine-tuning BERT

结论

在这里插入图片描述

总结

慢慢的将各种 $BERT$ 代码，全部将各种代码，啥的偶跑完整都行啦的理由与打算，慢慢的将代码啥的全部都跑完整都行啦的理由与打算。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

慢慢的将各种BERT全部都跑一遍都行啦的理由与打算。
复制链接

扫一扫

专栏目录

big_matster CSDN认证博客专家 CSDN认证企业博客

码龄4年

257: 原创

104万+: 周排名

211万+: 总排名

29万+: 访问

: 等级

2878: 积分

123: 粉丝

232: 获赞

52: 评论

1148: 收藏

私信

关注

热门文章

分类专栏

最新评论

LSTM和双向LSTM讲解及实践
weixin_40901147: 写得是真的好，很清晰。细胞状态就纪录语境（主题）变迁的变量，隐藏状态就是纪录注意力信息的变量（语法，用词）。新的细胞状态由新输入状态和过去的细胞状态隐藏状态决定，就是要细致分辨主题的变化，这是遗忘门和输入门的合作原理。新的隐藏状态是由新的细胞状态（新主题）和新的输入状态决定，这是输出门的工作原理。这决定了此刻此句话的意思。一个圆形相当于一个LSTM块。双向LSTM就是，若干句话顺着读产生上文语境，反着读产生下文语境，分别有上文细胞状态列和下文细胞状态列，对应输入状态产生产生上文隐藏和下文隐藏状态，对应着上下文的特征。共同决定此处特征。
open-set recognition(OSR)开集识别
qq_37441443: UKCS(unknown known classed)该怎么理解,能给个具体的例子吗
LSTM和双向LSTM讲解及实践
境界面上的双曲线: 你可以去看一下CNN+LSTM的网络结构
医疗实体及关系识别挑战赛
qq_43894281: 博主，您有这个数据集麽？如果有的话，可以发我一份麽？我找了好久都没有找到
open-set recognition(OSR)开集识别
dkdkdskk: Recent Advances in Open Set Recognition

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

big_matster 您的鼓励，是给予我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。