在动手学深度学习第9.5.3中有这样一句话“ 使用单词级词元化时,词表大小将明显大于使用字符级词元化时的词表大小。” 我对这句话的理解是,所谓字符级词元化,就是一个字符算作一个词汇量,英语与法语的字母都是26个,加上其他字符,字符级词元化的词汇量不超过一百个。而单词是任意个数字母的排列组合,因此单词的个数多得多,单词级词元化的词汇量也明显大于字符级词元化词汇量。
动手学深度学习——单词级词元化与字符级词元化的理解
最新推荐文章于 2024-03-14 09:31:31 发布
在动手学深度学习第9.5.3中有这样一句话“ 使用单词级词元化时,词表大小将明显大于使用字符级词元化时的词表大小。” 我对这句话的理解是,所谓字符级词元化,就是一个字符算作一个词汇量,英语与法语的字母都是26个,加上其他字符,字符级词元化的词汇量不超过一百个。而单词是任意个数字母的排列组合,因此单词的个数多得多,单词级词元化的词汇量也明显大于字符级词元化词汇量。