在将文本转化为token的过程中是不是都要构建词表

乐事layz

于 2025-01-03 10:03:13 发布

阅读量411

点赞数 3

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45809323/article/details/144902575

版权

深度学习专栏收录该内容

47 篇文章

订阅专栏

在将文本转化为token的过程中，大多情况下需要构建词表，但也存在一些不需要构建词表的特殊方法，以下为你详细介绍：

需要构建词表的情况

基于词汇表的传统方法：
- 原理：这是最常见的做法。对于给定的文本数据集，收集其中出现的所有不同单词（或字符等，取决于具体处理粒度）来构建一个词汇表。这个词汇表就像是一个“字典”，里面涵盖了文本中会涉及到的离散元素，然后给每个元素分配一个对应的token（通常是索引值）。
- 示例：比如处理一个小说文本数据集，我们把里面所有不同的单词整理出来，像“the”“book”“character”等，按照一定规则排序（如频率从高到低）后，给每个单词分配一个索引作为token，例如“the”可能是索引0，“book”是索引1，依此类推。后续在处理新的文本时，就对照这个词汇表把文本中的单词都替换成对应的token，以此实现文本到token的转换。这样做的好处是方便管理和操作文本数据，后续将token输入到神经网络等模型中也比较直观，而且可以控制词汇表的大小，避免出现过于庞大的词汇表导致计算复杂度过高、内存占用过多等问题。

不需要构建词表的情况

基于预训练模型的方法（如Transformer架构相关的一些模型）：
- 原理：像BERT（Bidirectional Encoder Representations from Transformers）、GPT（Generative Pretrained Model）系列等一些非常流行的预训练语言模型，它们在预训练阶段已经对大规模文本数据进行了处理，学习到了一种通用的文本编码方式。在使用这些模型将文本转化为token时，并不需要用户自己去构建词表，而是直接利用模型自带的预定义词表。例如，BERT有其特定的词表，包含了大约30,000个token，涵盖了常见的单词、子词以及一些特殊符号等，当我们把文本输入到BERT模型时，模型内部会按照它自己的规则，依据自带的词表把文本转化为对应的token序列。
- 优势：这种方式节省了人工构建词表的工作量，并且由于这些预训练模型的词表是经过大规模文本训练得到的，往往能够较好地处理各种文本情况，具有很强的通用性和泛化能力，即使面对一些生僻词或者新出现的词汇组合等情况，也能基于已有的预训练知识进行合理的token转化和后续处理。

所以说，将文本转化为token不一定都要构建词表，不过构建词表这种传统方式在很多特定场景和基础的自然语言处理任务中依然有着广泛的应用，而借助预训练模型不构建词表的做法在当下也越来越流行且便捷高效。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。