转自公众号 AI圈终身学习(ID:AIHomie)
因为微信外链限制,读者可以在公众号AI圈终身学习(ID:AIHomie)首页回复**“2018竞赛”**,获得我所有的比赛代码。
目录:
-
文本分类任务介绍
-
文本分类问题Pipeline
-
文本表示
-
模型介绍
-
后处理-模型融合和半监督学习
-
其他trick
写在前面
从2018年9月初-12月初,笔者主要做了三个比赛,成绩如下:
- CCL 2018中移在线客服领域用户意图分类 冠军
- CCF-BDCI 2018年汽车行业用户观点主题及情感识别挑战赛 排名6/1701
- 达观杯 2018长文本分类智能处理挑战赛 排名18/3462
笔者主要方向是KBQA,深深体会到竞赛是学习一个新领域最好的方式,这些比赛总的来说都属于文本分类领域,因此最近打算一起总结一下。
我也是小白,但是竞赛要取得好的名次我觉得比较简单,因为最重要的direction已经给你定好了(可以多思考学习举办方的出题方向和方式),也不用考虑落地问题,剩下的都是偏竞赛方面的技术问题,所以竞赛拿到好的名次并不代表这个人多牛。但是只要**态度端正,不眼高手低,付出一定的时间成本,就能做到前排。**那么具体怎么做呢?我慢慢介绍。
一、文本分类任务介绍
文本分类任务的目标是想办法预测出文本对应的类别,是NLP的基础任务。因为数据标注成本相对于其他任务低廉很多,因此有大量的标注数据可以训练模型,这是文本分类性能目前相对较好的重要原因。
接下来我依次介绍三个比赛的任务描述,如果您看完这节迷迷糊糊,请把达观杯的任务描述和目标记住就好。
1.1 达观杯任务描述
达观杯是一个长文本分类问题,最长的句子超过1w个词。文本进行过脱敏处理,任务目标是判断文本数据属于什么类别,类别总共有19种。比如给你一段新闻文章,判断文章属于经济、政治还是娱乐或者其他的类别。如图,横坐标是种类名称(脱敏的),纵坐标是对应的语料数量。
1.2 CCL中移在线任务描述
中移在线比赛是一个长文本多分类问题,和达观杯的主要区别是类别的层次增加了,也就是说类别是树状结构。
该题的目标是通过10086的语音转对话文本,判断用户的意图。比如下图的一个例子,其中1代表客服,2代表客户,然后根据对话文本内容判断改用户来电意图类别是“办理>>下载/设置”:
1 您好请说
2 哎那天只能提醒
1 转来电提醒是吧
2 行行好的哎
1 就把所有的电话都在来电提醒吗
2 好的
1 好呀请稍等那我帮你设置好了所有的电话都转来电提醒了还需要其他帮助吗
2 不用
1.3 BDCI汽车领域主题情感分析任务描述
BDCI这个题虽然是情感分析,但是也可以属于文本分类领域。
语料举例如下:
评论文本:斯柯达要说配置,似乎比大众要好一点,价格也低一些,用料完全一样。我听说过野帝,但没听说过你说这车。
情感分析结果:①价格 正向情感 ②配置 正向情感
本题主要是根据用户对汽车的评论文本,分析用户的主题和对应的情感,比如上面的主题就是价格和配置,都对应正向情感。
本题的主题有十种:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。
情感有三类:正向、中立、反向。
情感分析学术上可以分为ASC和TSC问题,本题属于ASC问题。不了解也没关系,这不是重点。