NLP中的数据预处理

最新推荐文章于 2024-07-20 19:16:01 发布

多少学一点吧

最新推荐文章于 2024-07-20 19:16:01 发布

阅读量614

点赞数

分类专栏： NLP入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/renliaocsdn/article/details/127017509

版权

NLP入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、分词：将一个句子，分解成独立的字符，并对所有字符进行编号

这里的字符，即可能是一个单词，也可能是一个字，称之为一个token；

那么整个分词的过程，称为tokenizaton；

2、什么是BPE？

BPE：Byte Pair Encoding，一种Subword(子词)模型方法，实质是一种简单的数据压缩算法。

我们知道，一门语言中，通常有几万到几十万量级的单词数。若使用这种编码方式，在语言模型预测的时候需要在这个拥有几万个单词的列表上计算一个概率分布，那样的计算量是非常恐怖的，而且过大的token列表十分影响模型的预测准确度。随着模型集成的不同国家的语言越来越多，模型的词汇列表势必会增长到一个非常可怕的数量级，到时候该如何去处理它带来的矩阵内存占用和预测准确性问题呢？并且，这种编码方式还具有别的问题，参考下面链接的第一段NLP三大Subword模型详解：BPE、WordPiece、ULM - 知乎 (zhihu.com)

别急，有一种编码方式能大大减小token list，那就是本文即将介绍的Byte Pair Encoding(BPE)，也是NLP中最重要的编码方式之一，它的有效性也被GPT-2, RoBERTa, XLM, FlauBERT等这些最强大的语言模型所证实。

多少学一点吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP中的数据预处理

也是NLP中最重要的编码方式之一，它的有效性也被GPT-2, RoBERTa, XLM, FlauBERT等这些最强大的语言模型所证实。并且，这种编码方式还具有别的问题，参考下面链接的第一段。别急，有一种编码方式能大大减小token list，那就是本文即将介绍的。这里的字符，即可能是一个单词，也可能是一个字，称之为一个token；1、分词：将一个句子，分解成独立的字符，并对所有字符进行编号。我们知道，一门语言中，通常有几万到几十万量级的单词数。随着模型集成的不同国家的语言越来越多，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。