评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第49期

本文分享了在第六届全国社会媒体处理大会上关于中文人机对话技术评测的任务一——意图分类的实践经验。作者探讨了深度学习在文本分类中的作用,尤其是卷积神经网络和残差网络的应用,指出在文本分类任务中,简单的模型结构和残差网络能够有效防止过拟合并提升性能。
摘要由CSDN通过智能技术生成

作者丨陆晨昱

单位丨义语智能科技(上海)有限公司

联系方式丨chenyu@deepbrain.ai


1. 引言


随着人工智能的大热,人机对话技术也受到了各界广泛的关注。在第六届全国社会媒体处理大会(SMP 2017)上,专委会举办了一场中文人机对话技术评测(ECDT)。评测包含两个任务,任务一为用户意图领域分类;任务二为特定域任务型人机对话在线评测。笔者代表我司参加了其中的任务一:意图分类。该任务的内容是根据用户请求的文本(通常为一个句子的长度)进行意图的分类,因而笔者就将其理解为文本分类了。 


在整个人机对话系统中,意图分类是非常重要的一环,其性能好坏直接影响后续功能模块的执行,进而影响整个系统的表现。传统的文本分类算法很大程度上依赖于精心挑选的特征和设置的规则,依靠人为加入的对某一特定语言的先验知识来实现分类。


随着深度学习的兴起,各种基于深度神经网络的分类模型在图像、语音等领域都取得了令人瞩目的成绩。近年来,深度学习也被广泛应用于自然语言处理领域,文本分类便是其中一个热门课题。 


文本分类是一个典型的序列分类问题。根据给定的字符序列,我们需要输出其对应的类别标签。常见的用于文本分类的深度学习模型有卷积神经网络、循环神经网络、注意力机制等。由于深度学习最大程度上简化了特征工程和预处理,模型结构与训练方法的选择是影响结果好坏的重要因素。 


在本次测评中,我司基于深度学习的文本分类模型在封闭与开放测试中均取得了第二名的成绩[1]。这里说句题外话,本来任务一设置开放与封闭测试两个子任务的初衷是允许参赛方在开放测试中可以使用额外的标注数据来训练模型。奈何我司人手不足,获取标注数据一事只好作罢。最终我司提交开放与封闭测试的是同一个模型,都只使用了封闭测试的标注数据。细心的读者可能会发现,我司在开放与封闭测试中的成绩是相同的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值