python-transformers基础总结【一】

本文详细介绍了transformers模型的输入参数,如input_ids、attention_mask和token_type_ids,以及它们的作用。还讨论了模型的不同架构输出,如ForCausalLM、ForMaskedLM等,并提到了模型加载、保存和tokenizer的功能,包括如何进行序列化和反序列化,以及微调的概念。
摘要由CSDN通过智能技术生成

2023年8月17日9:00:14

  1. transformers模型只接受tensor作为输入,因此需要在在tokenizer的时候需要加参数return_tensors=“pt”,列表嵌套列表是不允许的。
  2. input_ids:将输入到的词映射到模型当中的字典ID
  3. attention_mask:是具有与input_ids张:量完全相同形状的张量,填充0和1。1表示应注意的相应位置的标记,0表示不应注意的相应位置的标记(模型的attention layers 应忽略它们),换句话说告诉机器返回的数字编码中哪些是需要注意的实际数据,哪些是不需要关心的填充数据
  4. 模型没有attention_mask时,会默认用1填充,即需要注意
  5. token_type_ids:数字编码中哪些属于第一个句子,哪些属于第二个句子
  6. 不同模型架构输出是不一样的如下
    AutoModel
model = AutoModel.from_pretrained("bert-base-chinese")
输出
BaseModelOutputWithPoolingAndCrossAttentions,包含’last_hidden_state’和’pooler_output’两个元素。其中’last_hidden_state’的形状是(batch size,sequence length,768),'pooler_output’的形状是(batch size,768)。pooler output是取[CLS]标记处对应的向量后面接个全连接再接tanh激活后的输出。

AutoModelForMaskedLM

model = AutoModelForMaskedLM.from_pr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值