搜索智能问答的探索与实践
搜索引擎的演化历程
搜索智能问答的探索与实践
搜索引擎的演化历程
搜索中的问题需求
搜索中的问答形态
搜索中问答的技术路线
KBQA
什么是KBQA
解决方案
方案一:结构化推理
基于组合范畴语法 (CCG) 或句法依存树解析Query结构,并将其以固定的规则转换为图引擎表达式
方案二:结果端到端
基于神经网络,一站式完成从原始文本的输入到图引擎表达式/查询语 句的输出
方案选择
Query解析:模板挖掘
基于种子SPO,从多方数据来源挖掘模板
Query解析:层次化模板匹配
简单识别,与多层次嵌套模板识别
Query解析:模型预测
使用轻量且精准的模型兜住模板未能覆盖的10%的用户表达
结构化推理:算子引擎
算子的无限种组合,可以解决搜索场景下绝大多数复杂问题
DeepQA
DQA解决什么问题
背景:
DeepQA是指深度挖掘自由文本内容,结合QP匹配和MRC等技术,从自由文本中抽取文本片段作为答案,从而产出高质量问答对,扩充线上FAQ库,提升问答整体覆盖率。
特点:
来源简单 数据丰富 广泛适配多数场景
难点 如何从中抽取正确的答案?
搜索场景下的DQA
问答Query的理解
Query意图据识模型
MRC模型优化
MRC数据强化
答案选择与排序
答案选择排序
•答案聚合:多来源多文档下,同答案聚合,提升信号强度
•答案排序:选取基础Q-T-P-A四元组基础字面匹配特征、MRC模型特征、语义类特征等,做多维信号融合打分排序
据识后置
• MRC据识:MRC模型面临大量负样 本,过召回问题收敛难度大,过度 收敛会导致召回变低
• 后置据识:通过后置多维度融合后 的分数,对答案进行进一步据识, 降低过召回情况
方案的效果
Motian预训练 + MRC + rank 取得 CLUE-CMRC 榜单 Top1
IRQA
IRQA需要做哪些事情
匹配:相关性计算模型
预训练模型应用
大模型加速
一些思考
IRQA对内容生态的依赖、TOP1&SEO的互利结合
DQA事实的支撑、 KB完备性、KB的联合
更全面的应用