碰巧在微信公众号看到蚂蚁金服举办的金融NLP,自己想着去试试,最后遗憾没进前100,复赛资格都没有~忧伤。
1、官方分2次给数据集,第一次是3.6万条,这些数据作为A榜训练集;
2、第二次是6.4万条,同时开启B榜的排名,A榜关闭;
赛题分析:
该赛题是处理客服机器人的对话系统,判断自己的相似度,同义为1,不同义为0.
1、数据是格式为:行号\t句子1\t句子2\t标签;
2、全部是中文句子,该领域属于垂直领域,有许多的自定义词语;
3、分词采用结巴,先用哈工大的停用词,先不够造个人专属词典。
4、采用简单的朴素贝叶斯多项式,将问题看做文本二分类;
初步测试结果:得分0.68,还算可以,
5、想继续提高,就需要大量精力来做数据预处理,官方给的标签准确率为96%,错别字不少,词语前后顺序不一致的也不少,对话句子属于短文本,前后顺序先不考虑影响。
6、坑爹的问题在后面,,正负样本差距太大。3.6万条预料,竟然只有7000千多的正样本。。这就头大了,我的理解是需要构造正样本,确保样本均匀,不知道各位有何看法