Tokenizer那些事儿

Pennyyu0214

已于 2023-03-06 23:07:19 修改

阅读量642

点赞数

分类专栏： Transformer Bart 文章标签：深度学习人工智能机器学习

于 2022-07-20 17:03:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pennyyu123/article/details/125895169

版权

Transformer 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

一、格式处理

首先带大家梳理一下BPE词表中的一些知识。

“normalizer”:设置正则化器，即文本在编码前先经过正则化处理，正则化主要是用于转换全角字符及汉字标点。常见的正则化器有‘NFKC’等，‘NFKC’能够有效转换全角字符，同时也能转换中文标点，但以下中文标点不做转换：句号。顿号、书名号《》引号“ ” 以及各种方括号【】〖〗和六角括号〔〕，BPE训练时一般会先将语料正则化处理，再执行算法迭代，因此编码时也应加入正则化操作；
词表中的词表示一般区分词的位置，即是否为前缀（或后缀），同一个词在不同位置会对应不同id，因此tokenizer在使用词表分词前都会对序列进行预分词，即pretokenize，一般情况下pretokenize的依据是空格、制表、换行符和所有标点符号，此外special token也作为预切分依据，预分词后的文本会用于判断前后缀以生成不同表示，下一节会详细介绍常见的预分词器；
special token在解码时会自动忽略，因此还原文本时也无需设置跳过规则。
decode时的特殊情况：对于WordPiece解码器，如果一个id不属于前后缀类型的id，却位于序列的开头（结尾），则解码后会自动缀上“##”，其它情况下会按原样输出；如果一个id属于前后缀类型的，且其前（后）还有其他内容，则解码后会自动缀上空格符；

二、预分词器

一般在训练BPE词表时会对语料进行预分词，预分词后的文本可以更好地区分出前后缀。Tokenizer中常见的预分词器介绍如下：

1、Whitespace

Whitespace即连续字符分词器，采用正则表达式“\w+|[^\w\s]+”进行原文匹配。通过表达式可以看出分词规则如下：将连续的字符（汉字、字母和数字）作为一个子词，也将连续的非字符和非空格（通常为标点等符号）作为一个子词来切分，空格（‘\s’）则会直接过滤;

2、BertPreTokenizer

其和1类似，也是按照空格和标点等符号做切分，只是遇到连续标点时会拆分为独立单元，例如三个点的省略号‘…’，按照1的方法切分后是‘…’，按该分词器切分则为三个‘.’；

3、Punctuation

按照标点切分，但不考虑空格，也不过滤空格，标点处理方法同2一样独立拆分；

4、CharDelimiterSplit

按照指定字符切分，函数包含delimiter参数，接受单个字符（不指定会报错），分词时以该字符为切分依据，并过滤字符使其不在分词结果中出现；

5、WhitespaceSplit

只按空格切分，其它标点等字符都会合并；

6、Split

函数输入一个正则表达式（由Regex类初始化，该类输入模式串），分词时按该表达式切分，函数包含‘behavior’参数，用于指定匹配出文本的处理方法，有切分、移除、与前驱词合并、与后继词合并四种选择（注：切分、前后合并模式下子词之间的匹配失败部分也作为一个子词，然后执行不同操作，移除模式下只移除匹配成功的子词）；

7、Sequence

该分词器本身不具备分词功能，而是接受由分词器组成的列表类型，执行时会使用分词器表依次处理，每个分词器接受上一个分词器的输出，并将切分结果传给下一个分词器。列表中的分词器可以是上述所有分词器类型。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Pennyyu0214 CSDN认证博客专家 CSDN认证企业博客

码龄5年

25: 原创

9万+: 周排名

160万+: 总排名

2万+: 访问

: 等级

320: 积分

832: 粉丝

41: 获赞

13: 评论

120: 收藏

私信

关注

热门文章

分类专栏

算法题 7篇
Bart 3篇
Transformer 4篇
Bert 3篇
python编程 1篇
数据预处理
博客 7篇

最新评论

onnx模型转化总结
weixin_47318722: 你好，请问有哪里能看到onnx_for_search的脚本代码吗
onnx模型转化总结
Pennyyu0214: 没有用到fairseq，框架是我们自己写的
onnx模型转化总结
loovelj: 你好，请问这是基于Fairseq的优化吗？
神经机器翻译中的关键技术
「已注销」: 硬核
神经机器翻译中的关键技术
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 如何入门Python: https://activity.csdn.net/creatActivity?id=10436?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。