1、下载 2、获得json版本 3、转简体 opencc -i wiki_sentences.txt -o wiki_sentences.zhs.txt -c t2s.json 4、保留utf-8编码 iconv -c -t UTF-8 -o wiki_sentences.utf8.txt wiki_sentences.zhs.txt 5、去除非中文