BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2023-03-11 16:50:19 发布

尧景

最新推荐文章于 2023-03-11 16:50:19 发布

阅读量115

点赞数

分类专栏：深度之眼情感分析文章标签：自然语言处理

本文链接：https://blog.csdn.net/Ying_M/article/details/119081180

版权

深度之眼情感分析专栏收录该内容

4 篇文章 1 订阅

订阅专栏

论文阅读准备

前期知识储备

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

在这里插入图片描述

在这里插入图片描述

attention的应用----transformer

论文泛读

在这里插入图片描述
摘要

论文精读

论文算法模型总览

在这里插入图片描述

模型细节一

注意力
在这里插入图片描述
self-attention

self-attention可以用来代替RNN的结构
Mul-ti head self-attention

Transformer

除以根号d_k的作用：收敛速度变快，完成缩放。
双向Transformer

输入表征

模型细节二

Task1 : Masked LM
在这里插入图片描述
Task2 : 预测下一个句子

微调

阅读理解任务是指从输入的文章里面寻找问题的答案，答案是文章里面的句子，答案所在文章的开始位置和结束位置，相当于作一个分类任务，要预测开始和结束两个位置，因此要取两个词作为输出。

在这里插入图片描述
作者大致分为了四个类别，如上图所示，四幅图代表了不同的NLP任务，现在大量的task几乎都可以抽象成这四种任务结构，分别是

分类任务：输入两句话，输出对应的类别。应用场景：输入两句话，输出这两句话的相似度；
输入一句话。应用场景：例如情感分类(输入一句话，输出这句话的情感极性)；
输入两句话(一句话为Question，另一句话为Paragraph)，输出两个位置(答案的开始位置、结束位置)，相当于输出两个类别的内容，是一个序列级别的输出；
NER：明显的序列标注任务，输入的这句话有多少个token，输出就有多少个token，输出的都有一个对应的类别，每个词都对应有一个标签，(每个位置输出一个概率分布，取概率值对应的最大的类别)

在这里插入图片描述
BERT文本分类方法

实验设置及结果分析

数据集
在这里插入图片描述比较

模型大小

论文总结

在这里插入图片描述

代码

huggingface官网
 Transformer预训练模型库

.bin文件：bert模型的权重
config.json : 配置信息
vocab.txt

尧景

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

目录论文阅读准备前期知识储备学习目标论文导读论文研究背景、成果及意义论文泛读论文精读论文算法模型总览模型细节一模型细节二实验设置及结果分析论文总结论文阅读准备前期知识储备学习目标论文导读论文研究背景、成果及意义attention的应用----transformer论文泛读摘要论文精读论文算法模型总览模型细节一注意力self-attentionself-attention可以用来代替RNN的结构Mul-ti head self-attentionT
复制链接

扫一扫