使用Hugging Face快速实现Tokenizer

本文介绍如何使用HuggingFace库中的Tokenizer进行中文文本的编码与解码操作。通过三步快速上手:访问HuggingFace网站选择预训练模型、安装所需库并加载模型、对中文句子进行编码及解码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用Hugging Face快速上手Tokenizer

方法

step1

进入huggingface网站
在搜索栏中搜索chinese【根据自己的需求来,如果数据集是中文这的搜索】
在这里插入图片描述

step2

打开第一个bert-base-chinese
在这里插入图片描述

在这里插入图片描述
复制下面这段话到vscode里

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModelForMaskedLM.from_pretrained("bert-base-chinese")
step3
'''
Description: 快速入门
Autor: 365JHWZGo
Date: 2022-01-21 11:54:58
LastEditors: 365JHWZGo
LastEditTime: 2022-01-21 12:13:41
'''

from transformers import  AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
# encode
word_embeding = tokenizer('我是中国人,我骄傲!')
print(word_embeding)
'''
{
    'input_ids': [101, 2769, 3221, 704, 1744, 782, 8024, 2769, 7734, 1000, 8013, 102], 
    'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
'''

# decode
decode_word = tokenizer.decode(word_embeding['input_ids'])
print(decode_word)
# [CLS] 我 是 中 国 人 , 我 骄 傲 ! [SEP]
### 添加 Hugging Face Tokenizer 依赖 为了在项目中引入 Hugging Face 的 `tokenizers` 库,可以按照以下方法操作: #### 使用 pip 安装 最简单的方式是通过 Python 的包管理工具 `pip` 来安装 `tokenizers` 库。打开命令行终端并执行如下命令来完成安装[^1]: ```bash pip install tokenizers ``` 这将会自动下载最新的稳定版 `tokenizers` 并将其添加到当前环境。 #### 使用 conda 安装 如果更倾向于使用 Anaconda 或 Miniconda 进行环境管理,则可以通过 Conda 渠道获取该库: ```bash conda install -c conda-forge tokenizers ``` 此方式适合那些已经习惯于利用 Conda 创建独立开发环境的开发者们。 #### 配合其他 NLP 组件一起安装 考虑到很多情况下会同时用到多个自然语言处理组件,在创建新虚拟环境时可以直接指定一组常用的软件包列表文件 (requirements.txt),其中包含 `tokenizers==0.13.2` 版本号或其他特定需求版本的信息。这样能够一次性满足整个项目的依赖关系配置[^4]。 一旦成功安装了 `tokenizers` 后就可以开始编写代码实现分词功能了。下面是一个简单的例子展示如何初始化一个基于 BERT 架构的分词器实例[^3]: ```python from transformers import BertTokenizerFast tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased') text = "This is a sample sentence." tokens = tokenizer(text, return_tensors="pt") print(tokens) ``` 上述脚本展示了怎样加载预训练好的 BERT 分词模型,并对一段英文进行了编码转换为张量形式以便后续输入给神经网络模型进行进一步计算。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

365JHWZGo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值