任务
参加了一个贝壳找房公司在DataFountain上举办的比赛
任务:
本次赛题的任务是:给定app中的交流片段,片段包含一个客户问题以及随后的经纪人若干对话消息,从这些随后的经纪人消息中找出一个是对客户问题的。
这是一个二分类的问题,就是对许多的 (问题,答案)句子组合 进行 预测,如果问题和回答匹配了,就标注为1。
数据
训练集: 6000段对话, 每段对话是一句用户的问题对上多句客服的回答,这些回答里只有一部分是对客户的问题进行直接回答的,被标注为 1 , 其余的标注为0。
数据的格式可以被处理为: [query_id, reply_id,query,reply,label]
例如:
用户的问题是: 靠近沙川路嘛?
客服 回了三句话, 只有 "有一点靠近沙川路"这一条reply 的label是1(因为这句话直接回答了用户的问题), 其余的标注是0
流程
- 数据预处理
- preprocess.py
- 找规则
- 训练
- train.py
- 模型
- model.py
- 采用ALBERT+TextCNN
- 在test集输出
- test.py
模型
baseline
其实在比赛网站的排名榜上,得分第一名的人(是北航校友,已毕业)开源了他的代码
我下载下来看了一下,他是用jupyter notebook 写的,深度学习框架用的是tensorflow