wordPiece Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Tra
Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation主要关注于wordPiece分词方法论文的4.2节在自然语言处理领域,分词作为数据预处理工作中重要的一环。神经网络模型的训练和预测都需要借助词表来对句子进行表示。传统的构造词表的方法,先对句子进行分词,然后选择频数最高的前N个词组成词表。通常训练集中包含了大量的词汇,以英语为例,总的单词数量在17万到100







