2018蚂蚁金服自然语言处理比赛心得（ATEC）

最新推荐文章于 2024-07-13 23:08:43 发布

赢得青楼薄幸名

最新推荐文章于 2024-07-13 23:08:43 发布

阅读量6.9k

点赞数 2

分类专栏： NLP 文章标签： NLP 相似度自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengchunyanjx/article/details/81007386

版权

本文作者参与了2018年蚂蚁金服的自然语言处理竞赛，分享了处理客服机器人对话系统相似度判断的经验。通过朴素贝叶斯、RNN-LSTM和词向量等方法进行模型训练，面对数据不均衡和预处理难题的解决策略。最终，尽管成绩未达预期，作者期待与读者交流高效的数据预处理和模型优化技巧。

摘要由CSDN通过智能技术生成

碰巧在微信公众号看到蚂蚁金服举办的金融NLP，自己想着去试试，最后遗憾没进前100，复赛资格都没有~忧伤。

1、官方分2次给数据集，第一次是3.6万条，这些数据作为A榜训练集；

2、第二次是6.4万条，同时开启B榜的排名，A榜关闭；

赛题分析：

该赛题是处理客服机器人的对话系统，判断自己的相似度，同义为1，不同义为0.

1、数据是格式为：行号\t句子1\t句子2\t标签；

2、全部是中文句子，该领域属于垂直领域，有许多的自定义词语；

3、分词采用结巴，先用哈工大的停用词，先不够造个人专属词典。

4、采用简单的朴素贝叶斯多项式，将问题看做文本二分类；

初步测试结果：得分0.68，还算可以，

5、想继续提高，就需要大量精力来做数据预处理，官方给的标签准确率为96%，错别字不少，词语前后顺序不一致的也不少，对话句子属于短文本，前后顺序先不考虑影响。

6、坑爹的问题在后面，，正负样本差距太大。3.6万条预料，竟然只有7000千多的正样本。。这就头大了，我的理解是需要构造正样本，确保样本均匀，不知道各位有何看法

最低0.47元/天解锁文章

赢得青楼薄幸名

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。