BERT实战(1):使用DistilBERT作为词嵌入进行文本情感分类,与其它词向量(FastText,Word2vec,Glove)进行对比

这次根据一篇教程Jay Alammar: A Visual Guide to Using BERT for the First Time学习下如何在Pytorch框架下使用BERT。

主要参考了中文翻译版本

教程提供了可用的代码,可以在colab或者github获取。

1. huggingface/transformers

Transformers提供了数千个预训练的模型来执行文本任务,如100多种语言的分类、信息提取、问答、摘要、翻译、文本生成等。

文档:https://huggingface.co/transformers/
模型:https://huggingface.co/models

huggingface团队用pytorch复现许多模型,本次要使用它们提出的DistilBERT模型。

2. 数据集

本次使用的数据集是 SST2,是一个电影评论的数据集。用标签 0/1 代表情感正负。
在这里插入图片描述

3. 模型

在这里插入图片描述
句子的情感分类模型由两部分组成:

  • DistilBERT处理输入的句子,并将它从句子中提取的一些信息传递给下一个模型。 DistilBERT 是一个更小版本的 BERT 模型,是由 HuggingFace 团队开源的。它保留了 BERT 能力的同时,比 BERT 更小更快。
  • 一个基本的 Logistic Regression 模型,它将处理 DistilBERT 的输出结果并且将句子进行分类,输出0或1。

在这两个模型之间传递的数据是一个 768 维的向量。
假设句子长度为n,那及一个句子经过BERT应该得到n个768 维的向量。
在这里插入图片描述
实际上只使用[CLS]位置的向量看作是我们用来分类的句子的embedding向量。
在这里插入图片描述

4. 训练与预测

4.1 训练

虽然我们使用了两个模型,但是只需要训练回归模型(Logistic Regression)即可。
对于 DistilBERT 模型,使用该模型预训练的参数即可,这个模型没有被用来做句子分类任务的训练和微调
使用 Scikit Learn 工具包进行操作。将整个BERT输出的数据分成 train/test 数据集。
在这里插入图片描述
将75%的数据划为训练集,将25%的数据划分为测试集。
sklearn的train/test split在进行分割之前会对示例进行shuffles。
接下来就用机器学习的方法训练回归模型就行了。

4.2 预测

如何使用模型进行预测呢?
比如,我们要对句子 “a visually stunning rumination on love” 进行分类
第一步,用 BERT 的分词器(tokenizer)将句子分成 tokens;
第二步,添加特殊的 tokens 用于句子分类任务(在句子开头加上 [CLS],在句子结尾加上 [SEP]);
第三步,分词器(tokenizer)会将每个 token 替换成 embedding 表中的ID,embedding 表是我们预训练模型自带的;
在这里插入图片描述
下面这一行代码就完成了上述3步。

tokenizer.encode("a visually stunning rumination on love", add_special_tokens=True)

每个token的输出都是一个一个768维的向量。
在这里插入图片描述
由于这是一个句子分类任务,我们只取第一个向量(与 [CLS] token有关的向量)而忽略其他的 token 向量。
将该向量作为 逻辑回归的输入。

5. 代码(加入图片注释)

环境的配置就不细说了,可以在transformers的github页面查阅

5.1 导入所需的工具包

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklear
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值