第一章 《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战 》第一章 编码

内容出自《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战 》

HuggingFace 是什么?
AI系统的研发没有统一的标准,往往凭借研发人员各自的喜好随意设计研发的流程,缺乏统一的规范HuggingFace提出了一套可以依照的标准研发流程,按照该框架实施工程,

image.pngHuggingFace标准研发流程
HuggingFace提供的工具集

编码工具

文字是一个抽象的概念,不是计算机擅长处理的数据单元,计算机擅长处理的是数字运算,所以需要把抽象的文字转换为数字,让计算机能够做数学运算
image.png

使用HuggingFace提供的编码工具


from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
    pretrained_model_name_or_path='bert-base-chinese',    #pretrained_model_name_or_path='bert-base-chinese'指定要加载的编码工具
    cache_dir=None,#参数cache_dir用于指定编码工具的缓存路径
    force_download=False,#force_download为True时表明无论是否已经有本地缓存
)



#准备实验数据
sents = [
'你站在桥上看风景',
'看风景的人在楼上看你',
'明月装饰了你的窗子',
'你装饰了别人的梦',
]

out = tokenizer.encode(
    text=sents[0],
    text_pair=sents[1],
    # 当句子长度大于max_length时截断
    truncation=True,
    # 一律补PAD,直到max_length长度
    padding='max_length',
    add_special_tokens=True,
    max_length=25,
    return_tensors=None,
)
print(out)
print(tokenizer.decode(out))


[101, 872, 4991, 1762, 3441, 677, 4692, 7599, 3250, 102, 4692, 7599, 3250, 4638, 782, 1762, 3517, 677, 4692, 872, 102, 0, 0, 0, 0]
[CLS] 你 站 在 桥 上 看 风 景 [SEP] 看 风 景 的 人 在 楼 上 看 你 [SEP] [PAD] [PAD] [PAD] [PAD]

中间使用[SEP]符号分隔,
在整个句子的头部添加符号[CLS],
在整个句子的尾部添加符号[SEP],
因为句子的长度不足max_length,所以补充了4个[PAD]。

💡text_pair指的是辅助文本
在自然语言处理中通常用于表示与主要文本相关的补充信息,或者用于指定文本对任务中的第二个文本。辅助文本的作用取决于具体的任务和模型设计,以下是一些常见的用途:

  1. 文本蕴含任务(Textual Entailment): 在文本蕴含任务中,通常需要判断一个文本是否可以从另一个文本中推断出来。辅助文本可以作为前提或假设,而主要文本则作为推断结果。模型通过比较这两个文本之间的关系来判断文本之间的逻辑关系。
  2. 问答任务(Question Answering): 在问答任务中,通常需要根据给定的问题从文本中找到答案。辅助文本可以作为问题的背景或上下文,而主要文本则包含可能包含答案的内容。模型可以基于这两个文本来生成答案。
  3. 机器翻译任务(Machine Translation): 在机器翻译任务中,通常需要将一种语言的文本翻译成另一种语言。辅助文本可以是源语言的句子,而主要文本则是目标语言的句子。模型可以基于这两个文本来生成翻译结果。
  4. 文本摘要任务(Text Summarization): 在文本摘要任务中,通常需要从长文本中提取关键信息并生成简洁的摘要。辅助文本可以是原始文本的一部分或者相关的补充信息,而主要文本则是需要摘要的长文本。模型可以基于这两个文本来生成摘要。

总之,辅助文本的作用是提供与主要文本相关的补充信息或上下文,帮助模型更好地理解文本之间的关系,并完成特定的自然语言处理任务。

out = tokenizer.encode_plus(
    text=sents[0],
    text_pair=sents[1],
    # 当句子长度大于max_length时截断
    truncation=True,
    # 一律补零,直到max_length长度
    padding='max_length',
    max_length=25,
    add_special_tokens=True,
    # 可取值tf、pt、np,默认为返回list
    return_tensors=None,
    # 返回token_type_ids
    return_token_type_ids=True,
    # 返回attention_mask
    return_attention_mask=True,
    # 返回special_tokens_mask 特殊符号标识
    return_special_tokens_mask=True,
    # 返回length 标识长度
    return_length=True,
)
# input_ids 编码后的词
# token_type_ids 第1个句子和特殊符号的位置是0,第2个句子的位置是1
# special_tokens_mask 特殊符号的位置是1,其他位置是0
# attention_mask PAD的位置是0,其他位置是1
# length 返回句子长度
for k, v in out.items():
    print(k, ':', v)
print(tokenizer.decode(out['input_ids']))

input_ids : [101, 872, 4991, 1762, 3441, 677, 4692, 7599, 3250, 102, 4692, 7599, 3250, 4638, 782, 1762, 3517, 677, 4692, 872, 102, 0, 0, 0, 0]
token_type_ids : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
special_tokens_mask : [1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
attention_mask : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
length : 25
[CLS] 你 站 在 桥 上 看 风 景 [SEP] 看 风 景 的 人 在 楼 上 看 你 [SEP] [PAD] [PAD] [PAD] [PAD]

(1)输出input_ids:编码后的词,也就是encode()函数的输出。
(2)输出token_type_ids:因为编码的是两个句子,这个list用于表明编码结果中哪些位置是第1个句子,哪些位置是第2个句子。具体表现为,第2个句子的位置是1,其他位置是0。
(3)输出special_tokens_mask:用于表明编码结果中哪些位置是特殊符号,具体表现为,特殊符号的位置是1,其他位置是0。
(4)输出attention_mask:用于表明编码结果中哪些位置是PAD。具体表现为,PAD的位置是0,其他位置是1。
(5)输出length:表明编码后句子的长度。

批量的编码函数

#第2章/批量编码成对的句子
out = tokenizer.batch_encode_plus(
#编码成对的句子
batch_text_or_text_pairs=[(sents[0], sents[1]), (sents[2], sents[3])],
add_special_tokens=True,
#当句子长度大于max_length时截断
truncation=True,
#一律补零,直到max_length长度
padding='max_length',
max_length=25,
#可取值tf、pt、np,默认为返回list
return_tensors=None,
#返回token_type_ids
return_token_type_ids=True,
#返回attention_mask
return_attention_mask=True,
#返回special_tokens_mask 特殊符号标识
return_special_tokens_mask=True,
#返回offsets_mapping 标识每个词的起止位置,这个参数只能BertTokenizerFast使用
#return_offsets_mapping=True,
#返回length 标识长度
return_length=True,
)
#input_ids 编码后的词
#token_type_ids 第1个句子和特殊符号的位置是0,第2个句子的位置是1
#special_tokens_mask 特殊符号的位置是1,其他位置是0
#attention_mask PAD的位置是0,其他位置是1
#length 返回句子长度
for k, v in out.items():
print(k, ':', v)
tokenizer.decode(out['input_ids'][0])

💡batch_text_or_text_pairs
参数是一个包含文本对的列表,用于输入到模型中进行处理。每个文本对代表了一个样本,其中每个文本对都是一个元组,包含两个文本字符串,分别表示输入模型的主要文本和辅助文本。
通常情况下,这个参数被用于模型处理需要两个输入文本的情况,比如文本对分类、文本对排序等任务例如,对于一个包含两个文本对的列表:
<br />[<br /> ('text1a', 'text1b'),<br /> ('text2a', 'text2b')<br />]<br />
其中第一个文本对 ('text1a', 'text1b') 表示第一个样本,其中 'text1a' 是主要文本,'text1b' 是辅助文本;第二个文本对 ('text2a', 'text2b') 表示第二个样本,其中 'text2a' 是主要文本,'text2b' 是辅助文本。
在模型处理时,主要文本和辅助文本会分别进入模型的主要输入和辅助输入进行处理。

#添加新词
tokenizer.add_tokens(new_tokens=['明月', '装饰', '窗子'])


💡在自然语言处理任务中,
有时候会遇到一些特定领域、特定场景下的专有名词、新词或者是特定词汇,这些词汇可能不在预训练的词汇表中,因此需要将其添加到分词器的词汇表中,以确保模型能够正确地处理这些词汇。<br />`tokenizer.add_tokens()` 方法用于向分词器的词汇表中添加新词,参数 `new_tokens` 是一个包含需要添加的新词的列表。添加新词后,分词器在处理文本时就会考虑到这些新词,从而更准确地进行分词和处理。<br />添加新词的目的是为了提高模型的性能和泛化能力,特别是在处理领域特定的文本时,能够更好地适应文本的特点和需求。<br />添加新词后,分词器会自动将新词加入到其内部的词汇表中,以便后续的处理任务使用。添加新词通常在加载预训练模型后进行,但也可以在任何时候根据需要进行。
:::
```python
from transformers import BertTokenizer

# 加载预训练的 BERT 分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 查看添加前的特殊符号列表
print("添加前的特殊符号列表:", tokenizer.special_tokens_map)

# 添加新的特殊符号
tokenizer.add_special_tokens({'eos_token': '[EOS]'})  

# 查看添加后的特殊符号列表
print("添加后的特殊符号列表:", tokenizer.special_tokens_map)

添加前的特殊符号列表: {'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}
添加后的特殊符号列表: {'eos_token': '[EOS]', 'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}

💡tokenizer.add_special_tokens()
方法用于向分词器中添加特殊符号,比如起始符号、结束符号等。在自然语言处理任务中,特殊符号通常用于表示句子的起始、结束或者其他特殊含义,以便模型能够正确地理解和处理文本。
在给定的示例中,{'eos_token': '[EOS]'} 参数指定了一个特殊符号,即 EOS(End of Sentence),表示句子的结束。添加这样的特殊符号可以帮助模型更好地理解句子的边界和结构,在处理文本时更准确地识别句子的起始和结束位置。
添加特殊符号后,分词器会将其纳入到内部的词汇表中,以便在后续的处理任务中使用。通常,在加载预训练模型后或者在训练模型之前,我们会添加所需的特殊符号,以确保模型能够正确地处理文本数据。
:::

  • 27
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Huggingface自然语言处理详解——基于BERT中文模型任务实战》源码是一份用于展示如何使用Huggingface库进行自然语言处理任务的示例代码。该代码基于BERT中文模型,旨在帮助读者理解如何使用该模型进行文本分类、情感分析等任务。 该源码由以下几个部分组成: 1. 导入必要的库:代码开始部分导入了需要使用的Huggingface库,包括`transformers`和`tokenizers`。这些库提供了BERT模型以及相关的处理函数和工具。 2. 数据预处理:接下来,源码介绍了如何进行数据预处理。这包括读取数据集、分词、编码等步骤。具体来说,使用`BertTokenizer`类对文本进行分词,并使用`BertTokenizer.from_pretrained`加载预训练的BERT中文模型。 3. 构建模型:源码构建了一个简单的BERT分类模型,使用`BertForSequenceClassification`类来实现。这个模型有一个BERT编码器和一个用于分类的线性层。 4. 训练模型:通过`Trainer`类,源码进行了模型的训练。在训练过程中,使用了一个训练集和一个验证集,并定义了相应的训练参数,如学习率、批大小等。训练过程中,模型参数逐渐更新,直到达到设定的最大训练轮数。 5. 模型评估:训练完成后,源码进行模型评估。通过计算准确率、查全率、查准率等指标,评估模型在验证集上的性能。 总的来说,《Huggingface自然语言处理详解——基于BERT中文模型任务实战》源码提供了一个完整的BERT模型应用示例,通过该源码,读者能够了解如何使用Huggingface库中的BERT模型进行中文文本分类任务,并学会了如何进行数据预处理、构建模型、训练和评估模型等操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值