机器阅读理解Machine Reading Comprehension(MRC)调研
深度好文:https://blog.csdn.net/luojie140/article/details/112306892
文本分类 baseline model:textcnn
机器阅读理解 baseline model:BiDAF
textcnn
一维卷积常用于序列数据,如自然语言处理领域。
二维卷积常用于计算机视觉、图像处理领域
n-gram相关信息
NLP领域
tokenization,也叫word segmentation,按照特定需求,将文本切分成一个字符串序列(分词、规范化操作)
切分的字符串序列的元素称为token,叫做词语
将语料中得token做一个去重,得到词汇表,其中每个词语被称为type
torchtext
torchtext这一文本处理神器,可以方便的对文本进行预处理,例如截断补长、构建词表等。
torchtext包含以下组件:
Field :主要包含以下数据预处理的配置信息,比如指定分词方法,是否转成小写,起始字符,结束字符,补全字符以及词典等等
Dataset :继承自pytorch的Dataset,用于加载数据,提供了TabularDataset可以指点路径,格式,Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象,可以直接加载使用,splits方法可以同时加载训练集,验证集和测试集。
Iterator : 主要是数据输出的模型的迭代器,可以支持batch定制