BERT中的WordPiece实现了什么功能?为什么要这么做?

WordPiece实现了将单词拆分为subword的功能。比如"loves"、“loved”、“loving”这三个单词。其本身的语义都是"爱",但是如果以单词为单位,那这些单词就是不同的词。WordPiece算法可以把这3个单词拆分为“lov”,“ed”,"#ing","#es"几部分,这些单词都有相同的部分"lov",这样可以把词的本身的意思和前缀、后缀分开,使得最终的词表变得精简。

为什么要这门做?因为按照传统方式进行分词,由于单词存在时态、单复数等多种变化会导致词表非常大,影响训练速度,并且即使一个非常大的词表仍然无法处理未登录词。而如果以character级别进行文本表示粒度又太细。subword粒度在word于character之间,能够较好的解决上述分词方式面临的问题。subword主要的实现方式又wordpiece和bpe。BERT使用的是wordpiece方式。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值