tokenizer()和tokenizer.encode_plus()的区别

最新推荐文章于 2024-04-11 10:41:20 发布

CHY_   

最新推荐文章于 2024-04-11 10:41:20 发布

阅读量3.2k

点赞数 8

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/SingJumpRapBall/article/details/123447626

版权

这篇博客详细探讨了信息技术领域的某项前沿技术，深入解析了其工作原理和应用案例。文章重点讨论了如何利用该技术解决实际问题，并提出了未来的发展趋势和挑战。尽管涉及一些复杂概念，但作者以清晰易懂的方式进行了阐述。

摘要由CSDN通过智能技术生成

encoding = self.tokenizer(
            text,
            add_special_tokens=True,  # 句子开头和分隔加cls sep  [cls] + text + [sep]
            max_length=self.max_len,
            return_token_type_ids=True,  # 分句ids  0000000
            return_attention_mask=True,  # 注意力编码  1111111000
            return_tensors='pt',  # pytorch类型
            # padding="max_length"
            # truncation=True  # 超过max_length就截断
        )

encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,  # 句子开头和分隔加cls sep  [cls] + text + [sep]
            max_length=self.max_len,
            return_token_type_ids=True,  # 分句ids  0000000
            return_attention_mask=True,  # 注意力编码  1111111000
            return_tensors='pt',  # pytorch类型
            # padding="max_length"
            # truncation=True  # 超过max_length就截断
        )