如何对文字进行数字编码利用bert

最新推荐文章于 2023-10-08 09:00:00 发布

ninetyfour

最新推荐文章于 2023-10-08 09:00:00 发布

阅读量300

点赞数

文章标签： tensorflow bert 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ninetyfour/article/details/130422550

版权

batch = [ "我喜欢红色", "你喜欢蓝色吗", "我们都喜欢绿色，不是吗"]

可以使用Tokenizer进行数字编码，例如：

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 加载中文BERT分词器

batch = [
    "我喜欢红色",
    "你喜欢蓝色吗",
    "我们都喜欢绿色，不是吗"
]

encoded_batch = tokenizer(batch, padding=True, truncation=True, return_tensors='pt') # 返回pytorch张量

print(encoded_batch)

输出结果：

{'input_ids': tensor([[ 101,  2769,  6421,  4692,  2399,  102],
        [ 101,  872,  6421,  5023,  7274,  720,   102],
        [ 101,  2767,  6963,  2218,  4692,  1086,  8024,  679,  3221,  2739,
          8024,  679,  3221,  6662,   102]])， 
 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])， 
 'attention_mask': tensor([[1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

其中，input_ids是每个句子的token id序列，token_type_ids表示句子所属的句子对，attention_mask是注意力掩码，以便在序列长度不同时进行填充。需要注意的是，如果使用其他预训练模型，语言对应的分词器不一定相同

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何对文字进行数字编码利用bert

是注意力掩码，以便在序列长度不同时进行填充。需要注意的是，如果使用其他预训练模型，语言对应的分词器不一定相同。batch = [ "我喜欢红色", "你喜欢蓝色吗", "我们都喜欢绿色，不是吗"]是每个句子的token id序列，表示句子所属的句子对，
复制链接

扫一扫

ninetyfour CSDN认证博客专家 CSDN认证企业博客

码龄16年

22: 原创

15万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

603: 积分

23: 粉丝

38: 获赞

14: 评论

66: 收藏

私信

关注

热门文章

分类专栏

bug修复 10篇
代码科普 5篇

最新评论

关于时序预测可解释性预测
爱学习的不难拿: 收到，非常感谢您的回答
关于时序预测可解释性预测
ninetyfour: 实践中有两种，一种就是时间严格对齐的，这种就是采用哪种方式来判断相似了，比如计算时序距离，比如做时序ts2vec，做 embedding；另外一种就是时序是错开的，比较典型的就是股票 K 线数据的相似性，简单的方式是拿空间换时间，即把每个时序滑窗出来，即一个样本变成 N 个样本，具体滑窗方式也要根据实际业务来探索了
关于时序预测可解释性预测
爱学习的不难拿: 作者您好，论文2中VSF通过在计算时间序列实例距离在训练数据集中查找插补邻居，请问在实际应用中，对于时间不一样的训练实例和测试实例（一个实例先发生，一个实例后发生），在查找训练实例时，怎样实现时间对齐（即，怎样解决时间差问题）？
transformer在时序预测上如何应用(2023.10.18更新)
ninetyfour: 我更新一般自定义的 multipleheadattention，你们改改试试吧
hive 分区表增加新列原始分区可正常插入数据的命令
CSDN-Ada助手: 恭喜你在博客界迈出了坚实的一步！你的文章标题“hive 分区表增加新列原始分区可正常插入数据的命令”非常引人注目，我很高兴看到你分享了这个有用的命令。不仅能够帮助读者解决问题，还能帮助他们更好地理解Hive分区表的使用。我非常期待你未来的创作，希望你能继续分享更多关于Hive分区表的技巧和经验。鉴于你在这方面的专业知识，我建议你可以探索一下如何在Hive分区表中进行数据分析，或者如何优化分区表的查询性能。这些主题将进一步丰富你的博客内容，并为读者提供更深入的洞察力。再次恭喜你，期待你未来更多的精彩创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。