前言
我们小队能获得JDDC2019的并列亚军(3th),既有运气的成分,也离不开我们做的很多工作。
但本文只具体谈谈我参与JDDC2019的感想与收获,大概就是一篇写给自己的流水账吧。至于检索模型的细节可以参见我的github jddc2019-3th-retrieve-model以及我在12月中旬将完成的一篇关于多轮对话的综述。
这里是我的个人网站:
https://endlesslethe.com/jddc-2019-summary.html
有更多总结分享,排版也可能会更好看一点=v=
正文
其实在参加这个比赛之前,我对NLP都只是一知半解,因为NLP的基本模型太多了,看书看得不明白,也没有对模型有个总体的认识。
在完成JDDC这个比赛的过程中,我确实获益良多。主要可以分为三个方面:
数据预处理(数据探索性分析)
在数据探索性分析的过程中,我发现世界之大无奇不有,有很多有趣的事情都蕴含在语料之中。
列举几个影响比较深刻的例子:最长的会话长度(即多次QA的句数之和)有300句,可以说是客服和用户“大战”300回合;最长的用户提问有超过两万个字,是由一个短句复制了无数遍产生,可想而知用户当时的心情有多么的崩溃;有的用户前言不搭后语