内容出自《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战 》
HuggingFace 是什么?
AI系统的研发没有统一的标准,往往凭借研发人员各自的喜好随意设计研发的流程,缺乏统一的规范HuggingFace提出了一套可以依照的标准研发流程,按照该框架实施工程,
编码工具
文字是一个抽象的概念,不是计算机擅长处理的数据单元,计算机擅长处理的是数字运算,所以需要把抽象的文字转换为数字,让计算机能够做数学运算
使用HuggingFace提供的编码工具
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
pretrained_model_name_or_path='bert-base-chinese', #pretrained_model_name_or_path='bert-base-chinese'指定要加载的编码工具
cache_dir=None,#参数cache_dir用于指定编码工具的缓存路径
force_download=False,#force_download为True时表明无论是否已经有本地缓存
)
#准备实验数据
sents = [
'你站在桥上看风景',
'看风景的人在楼上看你',
'明月装饰了你的窗子',
'你装饰了别人的梦',
]
out = tokenizer.encode(
text=sents[0],
text_pair=sents[1],
# 当句子长度大于max_length时截断
truncation=True,
# 一律补PAD,直到max_length长度
padding='max_length',
add_special_tokens=True,
max_length=25,
return_tensors=None,
)
print(out)
print(tokenizer.decode(out))
[101, 872, 4991, 1762, 3441, 677, 4692, 7599, 3250, 102, 4692, 7599, 3250, 4638, 782, 1762, 3517, 677, 4692, 872, 102, 0, 0, 0, 0]
[CLS] 你 站 在 桥 上 看 风 景 [SEP] 看 风 景 的 人 在 楼 上 看 你 [SEP] [PAD] [PAD] [PAD] [PAD]
中间使用[SEP]符号分隔,
在整个句子的头部添加符号[CLS],
在整个句子的尾部添加符号[SEP],
因为句子的长度不足max_length,所以补充了4个[PAD]。
💡text_pair指的是辅助文本
在自然语言处理中通常用于表示与主要文本相关的补充信息,或者用于指定文本对任务中的第二个文本。辅助文本的作用取决于具体的任务和模型设计,以下是一些常见的用途:
- 文本蕴含任务(Textual Entailment): 在文本蕴含任务中,通常需要判断一个文本是否可以从另一个文本中推断出来。辅助文本可以作为前提或假设,而主要文本则作为推断结果。模型通过比较这两个文本之间的关系来判断文本之间的逻辑关系。
- 问答任务(Question Answering): 在问答任务中,通常需要根据给定的问题从文本中找到答案。辅助文本可以作为问题的背景或上下文,而主要文本则包含可能包含答案的内容。模型可以基于这两个文本来生成答案。
- 机器翻译任务(Machine Translation): 在机器翻译任务中,通常需要将一种语言的文本翻译成另一种语言。辅助文本可以是源语言的句子,而主要文本则是目标语言的句子。模型可以基于这两个文本来生成翻译结果。
- 文本摘要任务(Text Summarization): 在文本摘要任务中,通常需要从长文本中提取关键信息并生成简洁的摘要。辅助文本可以是原始文本的一部分或者相关的补充信息,而主要文本则是需要摘要的长文本。模型可以基于这两个文本来生成摘要。
总之,辅助文本的作用是提供与主要文本相关的补充信息或上下文,帮助模型更好地理解文本之间的关系,并完成特定的自然语言处理任务。
out = tokenizer.encode_plus(
text=sents[0],
text_pair=sents[1],
# 当句子长度大于max_length时截断
truncation=True,
# 一律补零,直到max_length长度
padding='max_length',
max_length=25,
add_special_tokens=True,
# 可取值tf、pt、np,默认为返回list
return_tensors=None,
# 返回token_type_ids
return_token_type_ids=True,
# 返回attention_mask
return_attention_mask=True,
# 返回special_tokens_mask 特殊符号标识
return_special_tokens_mask=True,
# 返回length 标识长度
return_length=True,
)
# input_ids 编码后的词
# token_type_ids 第1个句子和特殊符号的位置是0,第2个句子的位置是1
# special_tokens_mask 特殊符号的位置是1,其他位置是0
# attention_mask PAD的位置是0,其他位置是1
# length 返回句子长度
for k, v in out.items():
print(k, ':', v)
print(tokenizer.decode(out['input_ids']))
input_ids : [101, 872, 4991, 1762, 3441, 677, 4692, 7599, 3250, 102, 4692, 7599, 3250, 4638, 782, 1762, 3517, 677, 4692, 872, 102, 0, 0, 0, 0]
token_type_ids : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
special_tokens_mask : [1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
attention_mask : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
length : 25
[CLS] 你 站 在 桥 上 看 风 景 [SEP] 看 风 景 的 人 在 楼 上 看 你 [SEP] [PAD] [PAD] [PAD] [PAD]
(1)输出input_ids:编码后的词,也就是encode()函数的输出。
(2)输出token_type_ids:因为编码的是两个句子,这个list用于表明编码结果中哪些位置是第1个句子,哪些位置是第2个句子。具体表现为,第2个句子的位置是1,其他位置是0。
(3)输出special_tokens_mask:用于表明编码结果中哪些位置是特殊符号,具体表现为,特殊符号的位置是1,其他位置是0。
(4)输出attention_mask:用于表明编码结果中哪些位置是PAD。具体表现为,PAD的位置是0,其他位置是1。
(5)输出length:表明编码后句子的长度。
批量的编码函数
#第2章/批量编码成对的句子
out = tokenizer.batch_encode_plus(
#编码成对的句子
batch_text_or_text_pairs=[(sents[0], sents[1]), (sents[2], sents[3])],
add_special_tokens=True,
#当句子长度大于max_length时截断
truncation=True,
#一律补零,直到max_length长度
padding='max_length',
max_length=25,
#可取值tf、pt、np,默认为返回list
return_tensors=None,
#返回token_type_ids
return_token_type_ids=True,
#返回attention_mask
return_attention_mask=True,
#返回special_tokens_mask 特殊符号标识
return_special_tokens_mask=True,
#返回offsets_mapping 标识每个词的起止位置,这个参数只能BertTokenizerFast使用
#return_offsets_mapping=True,
#返回length 标识长度
return_length=True,
)
#input_ids 编码后的词
#token_type_ids 第1个句子和特殊符号的位置是0,第2个句子的位置是1
#special_tokens_mask 特殊符号的位置是1,其他位置是0
#attention_mask PAD的位置是0,其他位置是1
#length 返回句子长度
for k, v in out.items():
print(k, ':', v)
tokenizer.decode(out['input_ids'][0])
💡batch_text_or_text_pairs
参数是一个包含文本对的列表,用于输入到模型中进行处理。每个文本对代表了一个样本,其中每个文本对都是一个元组,包含两个文本字符串,分别表示输入模型的主要文本和辅助文本。
通常情况下,这个参数被用于模型处理需要两个输入文本的情况,比如文本对分类、文本对排序等任务例如,对于一个包含两个文本对的列表:<br />[<br /> ('text1a', 'text1b'),<br /> ('text2a', 'text2b')<br />]<br />
其中第一个文本对 ('text1a', 'text1b')
表示第一个样本,其中 'text1a'
是主要文本,'text1b'
是辅助文本;第二个文本对 ('text2a', 'text2b')
表示第二个样本,其中 'text2a'
是主要文本,'text2b'
是辅助文本。
在模型处理时,主要文本和辅助文本会分别进入模型的主要输入和辅助输入进行处理。
#添加新词
tokenizer.add_tokens(new_tokens=['明月', '装饰', '窗子'])
💡在自然语言处理任务中,
有时候会遇到一些特定领域、特定场景下的专有名词、新词或者是特定词汇,这些词汇可能不在预训练的词汇表中,因此需要将其添加到分词器的词汇表中,以确保模型能够正确地处理这些词汇。<br />`tokenizer.add_tokens()` 方法用于向分词器的词汇表中添加新词,参数 `new_tokens` 是一个包含需要添加的新词的列表。添加新词后,分词器在处理文本时就会考虑到这些新词,从而更准确地进行分词和处理。<br />添加新词的目的是为了提高模型的性能和泛化能力,特别是在处理领域特定的文本时,能够更好地适应文本的特点和需求。<br />添加新词后,分词器会自动将新词加入到其内部的词汇表中,以便后续的处理任务使用。添加新词通常在加载预训练模型后进行,但也可以在任何时候根据需要进行。
:::
```python
from transformers import BertTokenizer
# 加载预训练的 BERT 分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# 查看添加前的特殊符号列表
print("添加前的特殊符号列表:", tokenizer.special_tokens_map)
# 添加新的特殊符号
tokenizer.add_special_tokens({'eos_token': '[EOS]'})
# 查看添加后的特殊符号列表
print("添加后的特殊符号列表:", tokenizer.special_tokens_map)
添加前的特殊符号列表: {'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}
添加后的特殊符号列表: {'eos_token': '[EOS]', 'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}
💡tokenizer.add_special_tokens()
方法用于向分词器中添加特殊符号,比如起始符号、结束符号等。在自然语言处理任务中,特殊符号通常用于表示句子的起始、结束或者其他特殊含义,以便模型能够正确地理解和处理文本。
在给定的示例中,{'eos_token': '[EOS]'}
参数指定了一个特殊符号,即 EOS(End of Sentence),表示句子的结束。添加这样的特殊符号可以帮助模型更好地理解句子的边界和结构,在处理文本时更准确地识别句子的起始和结束位置。
添加特殊符号后,分词器会将其纳入到内部的词汇表中,以便在后续的处理任务中使用。通常,在加载预训练模型后或者在训练模型之前,我们会添加所需的特殊符号,以确保模型能够正确地处理文本数据。
:::