在线教育搜题场景最佳实践

简介:在线教育行业搜题场景如何保障搜索的性能和算法准确性尤为重要,本文整理了阿里云开放搜索针对搜题场景的最佳实践,希望给予开发者们更多思路和启发~

教育行业搜索业务背景

近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具备搜题场景的APP有5个;
在这里插入图片描述

在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。

教育搜题业务特点

  1. 海量题库且持续增长,数据库压力大;
  2. 存在高峰时段集中,用户搜索并发量大,搜索延迟直接影响用户体验;
  3. 覆盖不同阶段学习、用户场景越来越丰富
  4. 学科分类众多,数据越来越复杂,搜索存在跨学科错误;
  5. 需要强大的算法算力支撑,提升搜题准确性
  6. 依赖多模态搜索能力来解决图文搜索需求
  7. 依赖多语言处理能力来处理英语等其他语言搜题需求

阿里云开放搜索教育行业最佳实践

在这里插入图片描述

教育行业查询意图理解能力
1.query处理流程
在这里插入图片描述

2.查询语义理解
分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

• 示例
在这里插入图片描述

3.类目预测
什么是类目预测?
简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。

类目预测在教育行业的应用:
• 结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
• 预测各⽂本⽚段的字段类型(题干描述、选项等等);
在这里插入图片描述

4.词权重分析
功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。
功能用途: Query丢词、改写、文本相关性分析;
(1)基于用户行为生成训练数据
在这里插入图片描述

(2)词权重模型训练
• 序列标注模型 ;
• 预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;
示例
在这里插入图片描述

此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;

5.query改写
为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。
示例
1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果
2)用户可以自定义同义词来扩召回,例如"立方米" -> “吨”

排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。
在这里插入图片描述

客户效果对比

某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。
客户反馈

  • 搜题准确率绝对值提升5%;
  • 延时从100ms-300ms降到稳定50ms;
  • 离线数据同步大于4000TPS;

搜题效果前后对比

  • 搜题Query: “张慧研所指与小磁大概相近的是乐府之音”
    在这里插入图片描述
  • 搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”
    在这里插入图片描述
    在这里插入图片描述

如果你想和更多搜索技术相关同学交流,可以一起加入【推荐与搜索技术交流群】,钉钉群号: 23310502。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值