Bert原理和应用
文章平均质量分 94
Transformer原理,再到其应用,包括像bert等语言模型
百川AI
心怀热爱,奔赴山海
展开
-
BERT-flow:bert的向量表达是SOTA吗?
On the Sentence Embeddings from Pre-trained Language Models 阅读笔记code : github/BERT-Flowsource : EMNLP 2020BERT在用于下游各项NLP任务上都有明显提升,但是被发现直接作为sentence embedding的预训练模型效果不好,作者发现这是因为没有很好地挖掘BERT里面的语义信息,作者从理论上证明了bert的训练目标(MLM,NSP)和相似度任务之间差异,并可视化展示。发现bert的语义空间是非原创 2021-02-24 11:50:51 · 1408 阅读 · 0 评论 -
我还不知道Attention有哪些-公式代码都带你搞定
attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?代码上怎么实现呢?多头机制又是什么呢,且听分解原创 2020-11-30 23:55:58 · 1868 阅读 · 0 评论 -
BERT+实体-百度ERNIE优化了啥
ERNIE 1.0如何将知识(knowledge)信息融入到模型训练中,一种方式是将知识信息作为输入,成本是其他人使用的时候也要构建知识库,并且fine-tune和pre-train的知识库分布不一致,fine-tune也会出现问题。另一种方式是将知识信息融入到训练任务中,ERNIE提出一种知识掩盖策略取代bert的mask,包含实体层面和短语级别的掩盖,实验验证了这种策略的有效性,多阶段的maskBasic-Level Masking和bert一样,随机选取token做mask。Phrase原创 2020-05-09 23:05:44 · 1995 阅读 · 0 评论 -
【Transformer】Transformer笔记
Attention is all you need文章目录AttentionMulti-head attentionSelf AttentionPosition EmbeddingtransformerencodersdecodersReferenceAttentionRNN要逐步递归获得全局信息,双向RNN一定程度解决上下文问题;yt=f(yt−1,xt)y_t=f(y_{t−1...原创 2019-07-21 18:33:16 · 419 阅读 · 0 评论 -
BERT-Bidirectional Encoder Representations from Transformers
BERT, or Bidirectional Encoder Representations from TransformersBERT是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统。简单...原创 2018-11-06 22:27:45 · 5120 阅读 · 1 评论 -
BERT简单使用
文章目录Use BERT as feature环境入口最终结果预处理Use BERT as feature如何调用bert,将输入的语句输出为向量?如果在自己的代码中添加bert作为底层特征,需要官方例子run_classifier.py的那么多代码吗?环境mac:tf==1.4.0python=2.7windows:tf==1.12python=3.5入口调用预训...原创 2019-01-03 23:52:37 · 21886 阅读 · 21 评论 -
ERNIE: Enhanced Language Representation with Informative Entities
ERNIE: Enhanced Language Representation with Informative Entities当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上,相比于bert取得显著提升。bert融合上下文,ernie融...原创 2019-06-11 22:40:55 · 2442 阅读 · 0 评论