使用Hugging Face快速实现Tokenizer

365JHWZGo

已于 2022-01-21 13:25:24 修改

阅读量2.1k

点赞数 1

分类专栏：实践中的细节文章标签：自然语言处理深度学习人工智能

于 2022-01-21 13:06:58 首次发布

本文链接：https://blog.csdn.net/qq_44833392/article/details/122618693

版权

实践中的细节专栏收录该内容

25 篇文章

订阅专栏

本文介绍如何使用HuggingFace库中的Tokenizer进行中文文本的编码与解码操作。通过三步快速上手：访问HuggingFace网站选择预训练模型、安装所需库并加载模型、对中文句子进行编码及解码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Hugging Face快速上手Tokenizer

- - 方法

方法

step1

进入huggingface网站
在搜索栏中搜索chinese【根据自己的需求来，如果数据集是中文这的搜索】
在这里插入图片描述

step2

打开第一个bert-base-chinese
在这里插入图片描述

在这里插入图片描述
复制下面这段话到vscode里

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModelForMaskedLM.from_pretrained("bert-base-chinese")

step3

'''
Description: 快速入门
Autor: 365JHWZGo
Date: 2022-01-21 11:54:58
LastEditors: 365JHWZGo
LastEditTime: 2022-01-21 12:13:41
'''

from transformers import  AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
# encode
word_embeding = tokenizer('我是中国人，我骄傲！')
print(word_embeding)
'''
{
    'input_ids': [101, 2769, 3221, 704, 1744, 782, 8024, 2769, 7734, 1000, 8013, 102], 
    'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
'''

# decode
decode_word = tokenizer.decode(word_embeding['input_ids'])
print(decode_word)
# [CLS] 我 是 中 国 人 ， 我 骄 傲 ！ [SEP]