fields = [('id', None), ('query12', text_field), ('random', label_field),('label', label_field)]
examples.append(data.Example.fromlist([None, text, label], fields))
按顺序对应的,id是None,query12对应的是text,对应的处理是text_field对应的处理。 label对应的是"random"。这个是我故意这么起名的,就是为了说明其实是按排序,而不是名字匹配的。text_field里包含了你需要对'query12'里数据的各种处理。比如:
def chinese_tokenizer(text): return [tok for tok in jieba.lcut(text)] #本段抄袭自网上,用于中文分词。 #tokenize = lambda x: x.split() # fix_length指定每条文本的长度,截断补长 TEXT = data.Field(sequential=True, tokenize=chinese_tokenizer, lower=False, fix_length=150) #sequential需要与tokenize配合起来,tokenize后面有处理函数,sequential就必须为True。lower 是英文处理用的。