使用Hugging Face快速实现Tokenizer

使用Hugging Face快速上手Tokenizer

方法

step1

进入huggingface网站
在搜索栏中搜索chinese【根据自己的需求来,如果数据集是中文这的搜索】
在这里插入图片描述

step2

打开第一个bert-base-chinese
在这里插入图片描述

在这里插入图片描述
复制下面这段话到vscode里

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModelForMaskedLM.from_pretrained("bert-base-chinese")
step3
'''
Description: 快速入门
Autor: 365JHWZGo
Date: 2022-01-21 11:54:58
LastEditors: 365JHWZGo
LastEditTime: 2022-01-21 12:13:41
'''

from transformers import  AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
# encode
word_embeding = tokenizer('我是中国人,我骄傲!')
print(word_embeding)
'''
{
    'input_ids': [101, 2769, 3221, 704, 1744, 782, 8024, 2769, 7734, 1000, 8013, 102], 
    'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
'''

# decode
decode_word = tokenizer.decode(word_embeding['input_ids'])
print(decode_word)
# [CLS] 我 是 中 国 人 , 我 骄 傲 ! [SEP]
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

365JHWZGo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值