NLP学习笔记——BERT的一些应用(简记)

  本文内容中:挑出pytorch 版的 BERT 相关代码,从代码结构、具体实现与原理,以及使用的角度进行分析

Transformers版本:4.4.2(2021 年 3 月 19 日发布)

1. 本节接着上节内容,本节具体内容:

 a) BERT-based Models应用模型
 b) Bert解决NLP任务
   - BertForSequenceClassification
   - BertForMultiChoice
   - BertForTokenClassification
   - BertForQuestionAnswering
 c) BERT训练与优化

a. BERT-based Models

  基于 BERT 的模型都写在/models/bert/modeling_bert.py里面,包括 BERT 预训练模型和 BERT 分类等模型。
  首先,以下所有的模型都是基于BertPreTrainedModel这一抽象基类的,而后者则基于一个更大的基类PreTrainedModel。这里我们关注BertPreTrainedModel的功能:
  用于初始化模型权重,同时维护继承自PreTrainedModel的一些标记身份或者加载模型时的类变量。
补充:BERT 预训练任务包括两个:

  1. Masked Language Model(MLM):
      在句子中随机用[MASK]替换一部分单词,然后将句子传入BERT 中编码每一个单词的信息,最终用[MASK]的编码信息预测该位置的正确单词,这一任务旨在训练模型根据上下文理解单词的意思;
  2. Next Sentence Prediction(NSP)
      将句子对 A 和 B 输入 BERT,使用[CLS]的编码信息
    图 Bert预训练
b. Bert解决NLP任务
  1. BERT架构代码分析
      1)以下所有模型 <-(基于) BertPreTrainedModel <-(基于) PreTrainedModel
      2)BertPreTrainingHeads模型:负责两个任务的预测模块
      3)BertPreTrainingHeads模型:包裹了BertLMPredictionHead 和一个代表 NSP 任务的线性层
      4)BertPredictionHeadTransform模型:用来完成一些线性变换
      5)回到BertForPreTraining,继续看两块 loss 是怎么处理的。它的前向传播和BertModel的有所不同,多了labelsnext_sentence_label 两个输入:
       - labels:形状为[batch_size, seq_length] ,代表 MLM 任务的标签,注意这里对于原本未被遮盖的词设置为 -100,被遮盖词才会有它们对应的 id,和任务设置是反过来的。
       - 例如,原始句子是I want to [MASK] an apple,这里我把单词eat给遮住了输入模型,对应的label设置为[-100, -100, -100, 【eat对应的id】, -100, -100];
       - 为什么要设置为 -100 而不是其他数?因为torch.nn.CrossEntropyLoss默认的 gnore_index=-100,也就是说对于标签为 100 的类别输入不会计算 loss。
       - next_sentence_label:这一个输入很简单,就是 0 和 1 的二分类标签。
      6)直接相加,就是这么单纯的策略。
      当然,这份代码里面也包含了对于只想对单个目标进行预训练的 BERT 模型(具体细节不作展开):
       - BertForMaskedLM:只进行 MLM 任务的预训练;
       - 基于BertOnlyMLMHead,而后者也是对BertLMPredictionHead的另一层封装;
      - BertLMHeadModel:这个和上一个的区别在于,这一模型是作为 decoder 运行的版本;
       - 同样基于BertOnlyMLMHead;
       - BertForNextSentencePrediction:只进行 NSP 任务的预训练。
       - 基于BertOnlyNSPHead,内容就是一个线性层。
  2. BertForSequenceClassification
      1)这一模型用于句子分类(也可以是回归)任务,比如 GLUE benchmark 的各个任务。句子分类的输入为句子(对),输出为单个分类标签。结构上很简单,就是BertModel(有 pooling)过一个 dropout 后接一个线性层输出分类:
      2)在前向传播时,和上面预训练模型一样需要传入labels输入。如果初始化的num_labels=1,那么就默认为回归任务,使用 MSELoss;否则认为是分类任务。
  3. BertForMultipleChoice
      这一模型用于多项选择,如 RocStories/SWAG 任务。
      多项选择任务的输入为一组分次输入的句子,输出为选择某一句子的单个标签。 结构上与句子分类相似,只不过线性层输出维度为 1,即每次需要将每个样本的多个句子的输出拼接起来作为每个样本的预测分数。实际上,具体操作时是把每个 batch 的多个句子一同放入的,所以一次处理的输入为[batch_size, num_choices]数量的句子,因此相同 batch 大小时,比句子分类等任务需要更多的显存,在训练时需要小心。
  4. BertForTokenClassification
      这一模型用于序列标注(词分类),如 NER 任务。
      序列标注任务的输入为单个句子文本,输出为每个 token 对应的类别标签。 由于需要用到每个 token对应的输出而不只是某几个,所以这里的BertModel不用加入 pooling 层;同时,这里将_keys_to_ignore_on_load_unexpected这一个类参数设置为[r"pooler"],也就是在加载模型时对于出现不需要的权重不发生报错。
  5. BertForQuestionAnswering
      这一模型用于解决问答任务,例如 SQuAD 任务。
       - 问答任务的输入为问题 +(对于 BERT 只能是一个)回答组成的句子对,输出为起始位置和结束位置用于标出回答中的具体文本。这里需要两个输出,即对起始位置的预测和对结束位置的预测,两个输出的长度都和句子长度一样,从其中挑出最大的预测值对应的下标作为预测的位置。
      - 对超出句子长度的非法 label,会将其压缩(torch.clamp_)到合理范围。
c. BERT训练和优化
  1. Pre-Training
      预训练阶段,除了众所周知的 15%、80% mask 比例,有一个值得注意的地方就是参数共享。不止BERT,所有 huggingface 实现的 PLM 的 word embedding 和 masked language model 的预测权重在初始化过程中都是共享的:
      -> 至于为什么,应该是因为 word_embedding 和 prediction 权重太大了,以 bert-base 为例,其尺寸为(30522, 768),降低训练难度。
  2. Fine-Tuning
     微调也就是下游任务阶段,也有两个值得注意的地方。
     2.1 AdamW
      首先介绍一下 BERT 的优化器:AdamW(AdamWeightDecayOptimizer)。这一优化器来自 ICLR 2017 的 Best Paper:《Fixing Weight Decay Regularization in Adam》中提出的一种用于修复 Adam 的权重衰减错误的新方法。论文指出,L2 正则化和权重衰减在大部分情况下并不等价,只在 SGD 优化的情况下是等价的;而大多数框架中对于 Adam+L2 正则使用的是权重衰减的方式,两者不能混为一谈。
      AdamW 是在 Adam+L2 正则化的基础上进行改进的算法,与一般的 Adam+L2 的区别如下:
    请添加图片描述
    图片: AdamW
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
嗨!对于BERT情感分类实战,您可以按照以下步骤进行: 1. 数据准备: - 收集和整理情感分类的训练数据集,一般包含文本和对应的情感类别(如正面、负面、中性等)。 - 划分数据集为训练集和测试集,确保数据集的均衡性和随机性。 2. BERT模型介绍: - BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的自然语言处理模型,通过双向Transformer编码器学习语义表示。 - 可以选择使用基于TensorFlow或PyTorch实现的BERT模型,或者直接使用已经训练好的BERT模型进行微调。 3. 模型微调: - 使用训练集对BERT模型进行微调,即在预训练的BERT模型基础上,通过训练集进行进一步的学习。 - 这里的微调过程包括输入数据的预处理、构建分类任务的模型结构、定义损失函数和优化算法等。 4. 模型评估: - 使用测试集对训练好的BERT模型进行评估,计算分类准确率、精确率、召回率等指标,评估模型在情感分类任务上的性能。 5. 预测与应用: - 使用训练好的BERT模型对新的文本进行情感分类预测,得到情感类别的预测结果。 - 可以将该模型应用于各种情感分析任务,如舆情监测、评论情感分析等。 以上是BERT情感分类实战的一般流程,您可以根据具体需求和数据特点进行相应调整和优化。希望能对您有所帮助!如有更多问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值