1./usr/local/bin# text2wfreq < my_db.txt | wfreq2vocab > my_db.tmp.vocab
2.:/usr/local/bin# text2idngram -vocab my_db.tmp.vocab -idngram my_db.idngram < my_db.txt
3./usr/local/bin# idngram2lm -vocab_type 0 -idngram my_db.idngram -vocab my_db.tmp.vocab -arpa my_db.arpa
4./usr/local/bin# sphinx_lm_convert -i my_db.arpa -o my_db.lm.DMP
也可以在网上生成arpa文件后直接执行第四步。
ps:改变文件所有者:chown 用户名 文件名