笔者之前也参加了问答助手这个比赛,后面因为一些原因,没有时间完成。不过笔者上周答辩的时候,特地关注了这场比赛TOP选手答辩,在这列举一下我看到的Top思路。
1.1 数据介绍
该赛题的基础文档数据集是通过在互联网上采集到的全国各地发布的疫情相关政策文档,其中以北京市发布的各类政务文件为主。标注数据包含了疫情相关的问题和答案数据,这部分数据是在相关疫情政策文件上通过人工标注形成的。
数据说明
简单来说,就是训练集有问答对与其对应的抽答案的文档,而测试集只有问题。基于这个数据集,我们需要从文档中找到测试集每一个问题相匹配的文档,并从匹配的文档中抽出答案。
1.2 思路
整体流程图如下,重点在于BERT的细召回部分。
1.2.1 BM25
因为文档的数据有8000多个,如果单单用BERT进行召回的话,那么速度是非常慢的,成本代价也是最高的。BM25算法是业界常用的无监督召回策略。笔者的团队通过BM25算法粗召回与问题相关的文档50个&#x