机器阅读理解Machine Reading Comprehension(MRC)调研

机器阅读理解Machine Reading Comprehension(MRC)调研

深度好文:https://blog.csdn.net/luojie140/article/details/112306892

文本分类 baseline model:textcnn

机器阅读理解 baseline model:BiDAF

 

textcnn

一维卷积常用于序列数据,如自然语言处理领域。

二维卷积常用于计算机视觉、图像处理领域

 

n-gram相关信息

 

NLP领域

tokenization,也叫word segmentation,按照特定需求,将文本切分成一个字符串序列(分词、规范化操作)

切分的字符串序列的元素称为token,叫做词语

将语料中得token做一个去重,得到词汇表,其中每个词语被称为type

 

torchtext

torchtext这一文本处理神器,可以方便的对文本进行预处理,例如截断补长、构建词表等。

torchtext包含以下组件:

Field :主要包含以下数据预处理的配置信息,比如指定分词方法,是否转成小写,起始字符,结束字符,补全字符以及词典等等

Dataset :继承自pytorch的Dataset,用于加载数据,提供了TabularDataset可以指点路径,格式,Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象,可以直接加载使用,splits方法可以同时加载训练集,验证集和测试集。

Iterator : 主要是数据输出的模型的迭代器,可以支持batch定制

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值