【Foundation】(二)transformers之Tokenizer

本篇博客内容以及后续内容均来自b站up主你可是处女座啊

1、介绍

  • 数据预处理
    • step1 分词:使用分词器对分本数据进行分词(字、词)
    • step2 构建词典:根据数据集分词得结果,构建词典映射字典
    • step3 数据转换:根据构建好得词典,将分词处理后得数据做映射, 将文本序列转化为数字序列;
    • step4 数据填充与截断:在以batch输入到模型得方式中,需要对果断地数据进行填充,过长地数据进行截断,保证数据长度符合模型能够接受地长度范围,同时batch内地数据维度大小一致
  • tokenizer 基本使用
    • 加载保存(from_pretrained/save_pretrained)
    • 句子分词(tokenize)
    • 查看词典(vocab)
    • 索引转换(convert_tokens_to_ids/convert_ids_to_tokens)
    • 填充截断(padding/truncation)
    • 其他输入(attention_mask/token_type_ids)
#通用分词器
from transformers import AutoTokenizer
sen = "弱小的我也有大梦想"

2、保存与加载

 加载开源的tokenizer

tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese')
tokenizer

 保存到本地;

#保存到本地
tokenizer.save_pretrained('./roberta_tokenizer')

 本地加载

#本地加载
tokenizer= AutoTokenizer.from_pretrained('./roberta_tokenizer')
tokenizer

3、句子分词

tokens = tokenizer.tokenize(sen)
tokens

output

['弱', '小', '的', '我', '也', '有', '大', '梦', '想']

 查看词典

tokenizer.vocab

 查看词典大小

tokenizer.vocab_size

4、索引转换

#将词序转换为id序列
ids = tokenizer.convert_tokens_to_ids(tokens)
ids

output

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682]
#将id转换为token序列
tokens = tokenizer.convert_ids_to_tokens(ids)
tokens

output

['弱', '小', '的', '我', '也', '有', '大', '梦', '想']
#将token转换为string
str_sen = tokenizer.convert_tokens_to_string(tokens)
str_sen

output
‘弱 小 的 我 也 有 大 梦 想’

在这里插入代码片
#更便捷的方式
ids = tokenizer.encode(sen)
# ids = tokenizer.encode(sen,add_special_tokens=Flase)
ids

output

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102]
# 将id序列转换为字符串
str_sen = tokenizer.decode(ids)
# str_sen = tokenizer.decode(ids,skip_special_tokens=True)
str_sen

output

'[CLS] 弱 小 的 我 也 有 大 梦 想 [SEP]'

5、填充与阶段

#填充
ids = tokenizer.encode(sen,padding='max_length',max_length=15)
ids

output

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102, 0, 0, 0, 0]
#截断
ids = tokenizer.encode(sen,max_length=5,truncation=True)
ids
[101, 2483, 2207, 4638, 102]

6、其他输入部分

ids = tokenizer.encode(sen,padding='max_length',max_length=15)

attention_mask = [1 if idx !=0 else 0 for idx in ids]

token_type_ids = [0] * len(ids)

ids,attention_mask,token_type_ids

7、快速调用

inputs = tokenizer.encode_plus(sen,padding='max_length',max_length=15)
inputs

8、处理batch数据

sens = ['弱小的我也有大梦想,加油',
        '我的未来不是梦',
        '追梦赤子心']
res = tokenizer(sens)
res
  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
对于计算机专业的学生而言,参加各类比赛能够带来多方面的益处,具体包括但不限于以下几点: 技能提升: 参与比赛促使学生深入学习和掌握计算机领域的专业知识与技能,如编程语言、算法设计、软件工程、网络安全等。 比赛通常涉及实际问题的解决,有助于将理论知识应用于实践中,增强问题解决能力。 实践经验: 大多数比赛都要求参赛者设计并实现解决方案,这提供了宝贵的动手操作机会,有助于积累项目经验。 实践经验对于计算机专业的学生尤为重要,因为雇主往往更青睐有实际项目背景的候选人。 团队合作: 许多比赛鼓励团队协作,这有助于培养学生的团队精神、沟通技巧和领导能力。 团队合作还能促进学生之间的知识共享和思维碰撞,有助于形成更全面的解决方案。 职业发展: 获奖经历可以显著增强简历的吸引力,为求职或继续深造提供有力支持。 某些比赛可能直接与企业合作,提供实习、工作机会或奖学金,为学生的职业生涯打开更多门路。 网络拓展: 比赛是结识同行业人才的好机会,可以帮助学生建立行业联系,这对于未来的职业发展非常重要。 奖金与荣誉: 许多比赛提供奖金或奖品,这不仅能给予学生经济上的奖励,还能增强其成就感和自信心。 荣誉证书或奖状可以证明学生的成就,对个人品牌建设有积极作用。 创新与研究: 参加比赛可以激发学生的创新思维,推动科研项目的开展,有时甚至能促成学术论文的发表。 个人成长: 在准备和参加比赛的过程中,学生将面临压力与挑战,这有助于培养良好的心理素质和抗压能力。 自我挑战和克服困难的经历对个人成长有着深远的影响。 综上所述,参加计算机领域的比赛对于学生来说是一个全面发展的平台,不仅可以提升专业技能,还能增强团队协作、沟通、解决问题的能力,并为未来的职业生涯奠定坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鲸可落

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值