最近在分析fairseq的源码。对其bpe coding有几点发现。
1. 对\u0120的理解,这个符号是Ġ, 意思是一个词的开头,在Unicode中这个符号对应了空格等空白符。
参考:https://github.com/openai/gpt-2/issues/80
2. 如果修改bpe coding的分词符,需要对encoder.json就行修改。要把对应的字符加到单词表中。
最近在分析fairseq的源码。对其bpe coding有几点发现。
1. 对\u0120的理解,这个符号是Ġ, 意思是一个词的开头,在Unicode中这个符号对应了空格等空白符。
参考:https://github.com/openai/gpt-2/issues/80
2. 如果修改bpe coding的分词符,需要对encoder.json就行修改。要把对应的字符加到单词表中。