一些零碎的改动,以节约内存。
用了10万个语句做语料。
特征长度6419756
模板如下,没改动
# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-1,0]/%x[1,0]
U08:%x[0,1]
U09:%x[-1,1]/%x[0,1]
# Bigram
训练过程将使用1.4G的内存。当然还跑的过去,但是加大语料就不能支撑了,虽说可以改分布式,但是单机还是有必要优化的。