读文章笔记（四）：深度学习文本分类｜模型&代码&技巧

最新推荐文章于 2023-04-20 15:00:07 发布

Laura_Wangzx

最新推荐文章于 2023-04-20 15:00:07 发布

阅读量282

点赞数

分类专栏：读文章笔记与会议学习笔记

原文链接：https://mp.weixin.qq.com/s/TyPLs6iMewPGOHXMXXtsFg

版权

读文章笔记与会议学习笔记专栏收录该内容

25 篇文章 8 订阅

订阅专栏

读文章笔记（四）：深度学习文本分类｜模型&代码&技巧

公众号：李rumor，文章：深度学习文本分类｜模型&代码&技巧

Fasttext

Fasttext的分类实现很简单：把输入转化为词向量，取平均，再经过线性分类器得到类别。输入的词向量可以是预先训练好的，也可以随机初始化，跟着分类任务一起训练。

论文：https://arxiv.org/abs/1607.01759
代码：https://github.com/facebookresearch/fastText
在这里插入图片描述

TextCNN

TextCNN中：用CNN编码n-gram特征。
在这里插入图片描述

论文：https://arxiv.org/abs/1408.5882
代码：https://github.com/yoonkim/CNN_sentence

TextCNN是很适合中短文本场景的强baseline，但不太适合长文本，因为卷积核尺寸通常不会设很大，无法捕获长距离特征。同时max-pooling也存在局限，会丢掉一些有用特征。另外再仔细想的话，TextCNN和传统的n-gram词袋模型本质是一样的，它的好效果很大部分来自于词向量的引入[3]，因为解决了词袋模型的稀疏性问题。

DPCNN

论文：https://ai.tencent.com/ailab/media/publications/ACL3-Brady.pdf
代码：https://github.com/649453932/Chinese-Text-Classification-Pytorch

TextRCNN

论文：https://dl.acm.org/doi/10.5555/2886521.2886636
代码：https://github.com/649453932/Chinese-Text-Classification-Pytorch

TextBiLSTM+Attention

论文：https://www.aclweb.org/anthology/P16-2034.pdf
代码：https://github.com/649453932/Chinese-Text-Classification-Pytorch

HAN

论文：https://www.aclweb.org/anthology/N16-1174.pdf
代码：https://github.com/richliao/textClassifier

BERT

注意

数据集构建

首先是标签体系的构建，拿到任务时自己先试标一两百条，看有多少是难确定（思考1s以上）的，如果占比太多，那这个任务的定义就有问题。可能是标签体系不清晰，或者是要分的类目太难了，这时候就要找项目owner去反馈而不是继续往下做。
其次是训练评估集的构建，可以构建两个评估集，一个是贴合真实数据分布的线上评估集，反映线上效果，另一个是用规则去重后均匀采样的随机评估集，反映模型的真实能力。训练集则尽可能和评估集分布一致，有时候我们会去相近的领域拿现成的有标注训练数据，这时就要注意调整分布，比如句子长度、标点、干净程度等，尽可能做到自己分不出这个句子是本任务的还是从别人那里借来的。
最后是数据清洗：
3.1 去掉文本强pattern：比如做新闻主题分类，一些爬下来的数据中带有的XX报道、XX编辑高频字段就没有用，可以对语料的片段或词进行统计，把很高频的无用元素去掉。还有一些会明显影响模型的判断，比如之前我在判断句子是否为无意义的闲聊时，发现加个句号就会让样本由正转负，因为训练预料中的闲聊很少带句号（跟大家的打字习惯有关），于是去掉这个pattern就好了不少
3.2 纠正标注错误：这个我真的屡试不爽，生生把自己从一个算法变成了标注人员。简单的说就是把训练集和评估集拼起来，用该数据集训练模型两三个epoch（防止过拟合），再去预测这个数据集，把模型判错的拿出来按 abs(label-prob) 排序，少的话就自己看，多的话就反馈给标注人员，把数据质量搞上去了提升好几个点都是可能的

长文本
任务简单的话（比如新闻分类），直接用fasttext就可以达到不错的效果。
想要用BERT的话，最简单的方法是粗暴截断，比如只取句首+句尾、句首+tfidf筛几个词出来；或者每句都预测，最后对结果综合。
另外还有一些魔改的模型可以尝试，比如XLNet、Reformer、Longformer。
如果是离线任务且来得及的话还是建议跑全部，让我们相信模型的编码能力。

少样本
自从用了BERT之后，很少受到数据不均衡或者过少的困扰，先无脑训一版。
如果样本在几百条，可以先把分类问题转化成匹配问题，或者用这种思想再去标一些高置信度的数据，或者用自监督、半监督的方法。

鲁棒性
在实际的应用中，鲁棒性是个很重要的问题，否则在面对badcase时会很尴尬，怎么明明那样就分对了，加一个字就错了呢？
这里可以直接使用一些粗暴的数据增强，加停用词加标点、删词、同义词替换等，如果效果下降就把增强后的训练数据洗一下。
当然也可以用对抗学习、对比学习这样的高阶技巧来提升，一般可以提1个点左右，但不一定能避免上面那种尴尬的情况。