torchtext field与example对应关系

fields = [('id', None),  ('query12', text_field), ('random', label_field),('label', label_field)]
examples.append(data.Example.fromlist([None, text, label], fields))

按顺序对应的,id是None,query12对应的是text,对应的处理是text_field对应的处理。 label对应的是"random"。这个是我故意这么起名的,就是为了说明其实是按排序,而不是名字匹配的。text_field里包含了你需要对'query12'里数据的各种处理。比如:

def chinese_tokenizer(text):
    return [tok for tok in jieba.lcut(text)] #本段抄袭自网上,用于中文分词。
#tokenize = lambda x: x.split()
# fix_length指定每条文本的长度,截断补长
TEXT = data.Field(sequential=True, tokenize=chinese_tokenizer, lower=False, fix_length=150) #sequential需要与tokenize配合起来,tokenize后面有处理函数,sequential就必须为True。lower 是英文处理用的。

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值