2018蚂蚁金服自然语言处理比赛心得(ATEC)

本文作者参与了2018年蚂蚁金服的自然语言处理竞赛,分享了处理客服机器人对话系统相似度判断的经验。通过朴素贝叶斯、RNN-LSTM和词向量等方法进行模型训练,面对数据不均衡和预处理难题的解决策略。最终,尽管成绩未达预期,作者期待与读者交流高效的数据预处理和模型优化技巧。
摘要由CSDN通过智能技术生成

碰巧在微信公众号看到蚂蚁金服举办的金融NLP,自己想着去试试,最后遗憾没进前100,复赛资格都没有~忧伤。

1、官方分2次给数据集,第一次是3.6万条,这些数据作为A榜训练集;

2、第二次是6.4万条,同时开启B榜的排名,A榜关闭;

赛题分析:

该赛题是处理客服机器人的对话系统,判断自己的相似度,同义为1,不同义为0.

1、数据是格式为:行号\t句子1\t句子2\t标签;

2、全部是中文句子,该领域属于垂直领域,有许多的自定义词语;

3、分词采用结巴,先用哈工大的停用词,先不够造个人专属词典。

4、采用简单的朴素贝叶斯多项式,将问题看做文本二分类;

初步测试结果:得分0.68,还算可以,奋斗

5、想继续提高,就需要大量精力来做数据预处理,官方给的标签准确率为96%,错别字不少,词语前后顺序不一致的也不少,对话句子属于短文本,前后顺序先不考虑影响。

6、坑爹的问题在后面,,正负样本差距太大。3.6万条预料,竟然只有7000千多的正样本。尴尬。这就头大了,我的理解是需要构造正样本,确保样本均匀,不知道各位有何看法

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值