JDDC2019总结

前言

我们小队能获得JDDC2019的并列亚军(3th),既有运气的成分,也离不开我们做的很多工作。

但本文只具体谈谈我参与JDDC2019的感想与收获,大概就是一篇写给自己的流水账吧。至于检索模型的细节可以参见我的github jddc2019-3th-retrieve-model以及我在12月中旬将完成的一篇关于多轮对话的综述。

这里是我的个人网站
https://endlesslethe.com/jddc-2019-summary.html
有更多总结分享,排版也可能会更好看一点=v=

正文

其实在参加这个比赛之前,我对NLP都只是一知半解,因为NLP的基本模型太多了,看书看得不明白,也没有对模型有个总体的认识。

在完成JDDC这个比赛的过程中,我确实获益良多。主要可以分为三个方面:

数据预处理(数据探索性分析)

在数据探索性分析的过程中,我发现世界之大无奇不有,有很多有趣的事情都蕴含在语料之中。

列举几个影响比较深刻的例子:最长的会话长度(即多次QA的句数之和)有300句,可以说是客服和用户“大战”300回合;最长的用户提问有超过两万个字,是由一个短句复制了无数遍产生,可想而知用户当时的心情有多么的崩溃;有的用户前言不搭后语

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值