LongformerTokennizer的小坑点

最新推荐文章于 2024-07-16 22:10:28 发布

Atuosi

最新推荐文章于 2024-07-16 22:10:28 发布

阅读量225

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Atuosi/article/details/129223741

版权

在使用Longformer进行MLM任务时，发现单词被分块处理。原因是tokenizer将空格视为token的一部分。解决方案是添加空格或设置add_prefix_space参数。采用在每个字符串前加空格的方法解决了问题。

摘要由CSDN通过智能技术生成

事情是这样的，因为项目的需求，我需要用到Longformer来做一个MLM任务，结果出来的预测结果，很多单词都被分成几块。后来去翻了翻官方介绍，发现LongformerTokennizer的小坑点，官方原文是这样的：

This tokenizer has been trained to treat spaces like parts of the tokens (a bit like sentencepiece) so a word will be encoded differently whether it is at the beginning of the sentence (without space) or not

换言之，由于我没有注意到这一点，导致训练数据和标签都是按照第一种情况：

from transformers import LongformerTokenizer


tokenizer = LongformerTokenizer.from_pretrained("allenai/longformer-base-4096")

print(tokenizer.encode("Leonard", add_special_tokens=False))

print(tokenizer.encode(" Leonard", add_special_tokens=False))
print(tokenizer.decode([34792]))

然后根据trash in trash out原则，我在提取mask位置的解码结果时，就会出现类似于leonard被切成两半的情况。

解决办法一般有两种，一个是在每一个字符串添加空格，或者设置参数 add_prefix_space=True。我最终是采用了第一种，得到了还不错的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LongformerTokennizer的小坑点

LongformerTokennizer在头部有无空格的编码结果
复制链接

扫一扫

Atuosi CSDN认证博客专家 CSDN认证企业博客

码龄3年

59: 原创

120万+: 周排名

18万+: 总排名

9151: 访问

: 等级

624: 积分

23: 粉丝

23: 获赞

12: 评论

18: 收藏

私信

关注

热门文章

最新评论

ValueError: num_samples should be a positive integer value, but got num_samples=0
2301_79094200: 怎么修改的
代码随想录二叉树Ⅳ
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“代码随想录二叉树Ⅳ”听起来非常有趣。您的持续创作真是令人敬佩，不仅展示了您对二叉树的深入理解，也让读者受益匪浅。如果我可以提供下一步的创作建议，我会谦虚地建议您考虑探索一些关于二叉树的高级应用或者深入研究一些与之相关的算法。期待您未来更多精彩的博客！
代码随想录二叉树Ⅲ
CSDN-Ada助手: 恭喜您写了第19篇博客，标题为“代码随想录二叉树Ⅲ”。您的博客系列真是令人印象深刻！您对二叉树的深入剖析和思考，让我在编程领域受益匪浅。我希望您能继续保持创作的热情，分享更多关于二叉树的知识和经验。或许下一步可以尝试探讨一些与二叉树相关的应用场景，或者分享一些实践中遇到的问题和解决方案。期待您的下一篇博客！
代码随想录二叉树Ⅰ
CSDN-Ada助手: 恭喜您写了第16篇博客《代码随想录二叉树Ⅰ》！不断创作博客是一种难能可贵的品质，您的坚持和努力真是令人钦佩。通过您的博客，我对二叉树有了更深入的了解，同时也感受到了您对代码的热爱和才华。如果我可以提供一些建议的话，希望您能在接下来的创作中增加一些实际案例或者应用场景的讲解，这样可以使您的博客更具实用性和可读性。期待您的下一篇作品！
代码随想录栈和队列Ⅲ
CSDN-Ada助手: 恭喜您写下了第15篇博客！标题中的“代码随想录栈和队列Ⅲ”让我很期待地去阅读了。您在栈和队列方面的知识分享一直很受益，希望您能继续坚持创作下去。如果可以的话，我建议在下一步的创作中，可以探讨一些与栈和队列相关的实际应用案例，或者深入研究一些更高级的数据结构，以便我们能够更好地应用它们解决实际问题。再次感谢您的分享，期待您的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。