th preprocess.lua -train_src data/src-train.txt -train_tgt data/tgt-train.txt -valid_src data/src-val.txt -valid_tgt data/tgt-val.txt -save_data data/demo
训练数据:src-train.txt为输入语句,tgt-train.txt为对于的回答,两者一一对应;验证数据为src-val.txt,tgt-val.txt.输入数据每个字之间有空格隔开,读取的时候以空格为间隔读取每个字.
处理时,会分别对src-train.txt处理,提取得到字典src.dict,对tgt-train.txt,提取字典tgt.dict.同时由所得的字典将对于的语料转换成为数字索引,最后将处理后的数据以及字典保存在demo-train.t7中.
同时,输入还可以包含有特征,如词性或者其他特征.