Subword Models

最新推荐文章于 2022-07-27 16:14:57 发布

王运博

最新推荐文章于 2022-07-27 16:14:57 发布

阅读量128

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42822452/article/details/107052625

版权

Subword Models

Character-Level Models
Sub-word models
- Byte Pair Encoding
- Hybrid model
Chars for word embeddings

Character-Level Models

通常针对字符级的模型有两种处理思路：一种是把原有的词向量分解处理，一种是把连接的语言分解成字符。

Sub-word models

课程这里介绍了介于word-level和char-leval之间的Sub-word models，主要又两种趋势，一种是仍采用和word-level相同的结构，只不过采用更小的单元’word pieces’；另外一种是采用混合结构，word和char都有。

Byte Pair Encoding

Byte Pair Encoding,简称BPE。是一种压缩算法。
给定了文本库，我们的初始词汇库仅包含所有的单个的字符，然后不断的将出现频率最高的n-gram pair作为新的ngram加入到词汇库中，直到词汇库的大小达到我们所设定的某个目标为止。
用这种方法可以自动生成vocab。
谷歌的NMT模型有两个版本，版本一采用的是BPE模型，版本二对BPE模型进行了改进，称为wordpiece mode。这种方法不在使用n-gram的计算来算，而是使用搜索算法搜索最大化的该语言模型的片段去选择pieces。
另外还有一种模型叫sentencepiece，它直接从raw text中获取，同时把空格视为一种特殊的token(_)

Hybrid model

混合模型即两种方式并存的模型，在正常处理时采用word-level的模型，当出现奇怪的词的后，使用char-level级的模型。

Chars for word embeddings

采用subword的方式长生词向量，课程中提到了FastText

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Subword Models

Subword ModelsCharacter-Level ModelsSub-word modelsByte Pair EncodingHybrid modelChars for word embeddingsCharacter-Level Models通常针对字符级的模型有两种处理思路：一种是把原有的词向量分解处理，一种是把连接的语言分解成字符。Sub-word models课程这里介绍了介于word-level和char-leval之间的Sub-word models，主要又两种趋势，一种是仍
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。