2019.10.22
自然语言处理问题主要分为两大类:分类和序列标注
分类包含两种:multi-class和multi-label两种
序列标注可以用来完成NER、生成摘要、问答等任务
这些都可在目前SOTA预训练模型(如roberta、xlnet)的基础上进行fine-tuning,也就是站在巨人的肩膀上。
自己的代码库可以将几类NLP问题整理成通用的框架,每次面对不同的数据集(各路比赛数据),仅需要对数据集进行重构即可feed到模型中进行训练及预测,若搭载更成熟的autoML框架,可大大提高建模效率。
代码库分为通用框架和应用两大块,通用框架针对不同的NLP问题整理通用代码,应用包含各具体数据集的具体训练和预测。