python-pytorch基础之bert模型分词器tokenizer填充的两种方法

最新推荐文章于 2024-07-02 16:56:11 发布

liwulin0506

最新推荐文章于 2024-07-02 16:56:11 发布

阅读量744

点赞数

分类专栏： python pytorch 文章标签： python pytorch bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60688978/article/details/132226871

版权

python 同时被 2 个专栏收录

59 篇文章 2 订阅

订阅专栏

42 篇文章 0 订阅

订阅专栏

方法一

from transformers import AutoTokenizer
tokenizer=AutoTokenizer.from_pretrained("./distilbert-base-uncased-finetuned-sst-2-english")

x_train_tokenized=x_train[0].apply(lambda ii:tokenizer.encode(ii, add_special_tokens = True))

# 填充方法
max_len=0
for i in x_train_tokenized.values:
    if len(i) > max_len:
        max_len = len(i)
x_train_tokenized = np.array([i + [0] * (max_len - len(i)) for i in x_train_tokenized.values])

方法二

from transformers import AutoTokenizer
tokenizer=AutoTokenizer.from_pretrained("./distilbert-base-uncased-finetuned-sst-2-english")


x_train_tokenized=x_train[0].apply(lambda ii:tokenizer(ii,
                       padding="max_length",
                       truncation=True,
                       return_tensors="pt",
                       max_length=66))
输出类似
 tensor([[  101,  5342,  2047,  3595,  8496,  2013,  1996, 18643,  3197,   102,
              0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
              0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
              0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
              0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
              0,     0,     0,     0,     0,     0,     0,     0,     0,     0,

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-pytorch基础之bert模型分词器tokenizer填充的两种方法

python-pytorch基础之bert模型分词器tokenizer填充的两种方法
复制链接

扫一扫

专栏目录

liwulin0506 CSDN认证博客专家 CSDN认证企业博客

码龄3年

360: 原创

2万+: 周排名

7817: 总排名

21万+: 访问

: 等级

4279: 积分

958: 粉丝

593: 获赞

18: 评论

609: 收藏

私信

关注

热门文章

分类专栏

java 109篇
idea 2篇
javafx 46篇
杂项 1篇
python 59篇
谷歌浏览器插件 1篇
jquery 2篇
js 1篇
xbox360 1篇
pytorch 42篇
jupyter notebook 1篇
tranformers 6篇
unity 12篇
unity2d 9篇
常用工具
aseprite 1篇
excel 2篇
poi 2篇
二开笔记 4篇
php 5篇
npm 1篇
piplines 1篇
health 1篇
常见报错 1篇
git 1篇
java辅助 4篇
python报错 2篇
java设计模式 1篇
JAVA-DJL 2篇

最新评论

谷歌浏览器-network中请求的query string parmeters和request payload的区别
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
java-普通java项目使用log4j-1.1.1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
python-pytorch使用日志0.5.061
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
python-pytorch 下批量seq2seq+Bahdanau Attention实现问答1.0.000
ha_lydms: 给作者大大点赞！这是一篇优质好文，对我学习又有了信道帮助哦，复习好物，三连值得，内容详细易懂
java-jna-hook代码
qq_41201439: 大佬，要导入哪些依赖包

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。