python-transformers基础总结【一】

liwulin0506

已于 2023-08-18 11:52:41 修改

阅读量417

点赞数

分类专栏： tranformers python 文章标签： python transformers

于 2023-08-17 17:27:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60688978/article/details/132345882

版权

本文详细介绍了transformers模型的输入参数，如input_ids、attention_mask和token_type_ids，以及它们的作用。还讨论了模型的不同架构输出，如ForCausalLM、ForMaskedLM等，并提到了模型加载、保存和tokenizer的功能，包括如何进行序列化和反序列化，以及微调的概念。

摘要由CSDN通过智能技术生成

2023年8月17日9:00:14

transformers模型只接受tensor作为输入，因此需要在在tokenizer的时候需要加参数return_tensors=“pt”,列表嵌套列表是不允许的。
input_ids：将输入到的词映射到模型当中的字典ID
attention_mask：是具有与input_ids张:量完全相同形状的张量，填充0和1。1表示应注意的相应位置的标记，0表示不应注意的相应位置的标记(模型的attention layers 应忽略它们），换句话说告诉机器返回的数字编码中哪些是需要注意的实际数据，哪些是不需要关心的填充数据
模型没有attention_mask时，会默认用1填充，即需要注意
token_type_ids：数字编码中哪些属于第一个句子，哪些属于第二个句子
不同模型架构输出是不一样的如下
AutoModel

model = AutoModel.from_pretrained("bert-base-chinese")
输出
BaseModelOutputWithPoolingAndCrossAttentions，包含’last_hidden_state’和’pooler_output’两个元素。其中’last_hidden_state’的形状是（batch size,sequence length,768)，'pooler_output’的形状是(batch size,768)。pooler output是取[CLS]标记处对应的向量后面接个全连接再接tanh激活后的输出。

AutoModelForMaskedLM

model = AutoModelForMaskedLM.from_pr

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

liwulin0506 CSDN认证博客专家 CSDN认证企业博客

码龄3年

371: 原创

8814: 周排名

7541: 总排名

22万+: 访问

: 等级

4483: 积分

1039: 粉丝

671: 获赞

20: 评论

682: 收藏

私信

关注

热门文章

分类专栏

java 116篇
ANTLR 6篇
其他 4篇
xbox360 1篇
idea 2篇
javafx 46篇
python 59篇
谷歌浏览器插件 1篇
jquery 2篇
js 1篇
pytorch 42篇
jupyter notebook 1篇
tranformers 6篇
unity 12篇
unity2d 9篇
常用工具
aseprite 1篇
excel 2篇
poi 2篇
二开笔记 4篇
php 5篇
npm 1篇
piplines 1篇
health 1篇
常见报错 1篇
git 1篇
java辅助 4篇
python报错 2篇
java设计模式 1篇
JAVA-DJL 2篇

最新评论

java-在ANTLR中，如何使用生成的Listener代码
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python-pytorch编写transformer模型实现翻译0.5.00-训练与预测
星辰大海936: 看懂啦！源代码应该是没有更新decoder的输入。感谢大佬！ [code=python] for i in range(5): dec_inputs[0][i] = outt print("+++", i, dec_inputs[0][i], dec_inputs, outt) predict, enc_self_attns, dec_self_attns, dec_enc_attns = model(enc_inputs, dec_inputs) # 用模型进行翻译 predict = predict.view(-1, len(corpus.tgt_vocab)) # 将预测结果维度重塑 predict = predict.data.max(1, keepdim=True)[1] # 找到每个位置概率最大的词汇的索引 print(predict) outt = predict[i].item() [/code]
python-pytorch编写transformer模型实现翻译0.5.00-训练与预测
星辰大海936: 看了半天也没有找到到底改了哪里，方便给说一下嘛。
python-pytorch编写transformer模型实现翻译0.5.00-训练与预测
星辰大海936: 大佬太牛了哇！！
谷歌浏览器-network中请求的query string parmeters和request payload的区别
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。