subword-nmt源码地址:GitHub - rsennrich/subword-nmt: Unsupervised Word Segmentation for Neural Machine Translation and Text Generation
记录原因:subword-nmt的使用方法与原markdown中的内容有所出入。
安装subword-nmt
! pip install subword_nmt
使用过程
substrate_dict.txt文件的部分内容:
! subword-nmt learn-bpe --input substrate_dict.txt --output substrates.txt
substrates.txt文件的部分内容:
! subword-nmt get-vocab -i substrates.txt -o substrates2.txt
得到的substrates2.txt文件的部分内容: