搜索团队的技术小结

搜索业务形态

          CSDN作为开发者内容中心,主要通过分发博客和商业产品(下载资源)满足用户碎片化学习需求;产品形态上通过以下3种方式来承接用户需求
          1.  站内搜索框             

          2. 博客相关推荐               

           3. 下载相关推荐                  

         3种产品形态通过站内流量或者外部搜索引擎流量触达;因此本质都是解决用户query的需求。基于此相关推荐产品定位首要是搜索场景的延伸,持续解决当前博客没有解决的问题。

主要挑战

     用户体验维度, 全网搜索面临的技术维度调整在CSDN搜索都会遇到,从qu、文本/语义召回、时效性排序、权威性排序、阿拉丁异构混排等等都是CSDN搜索需要解决的;同时CSDN的搜索词更长尾词,且中英文混杂,

     商业收入维度, 历史对外部SEO导流CSDN站内搜推的依赖较强,而从去年开始国内主流网页搜索对CSDN商业产品的做打压,导致其曝光巨幅下滑以及对应收入下滑。

     同时AIGC大行其道今日,传统的分发在满足用户需求维度已经落后生成式答案,3月份研发团队对各家大模型在代码生成以及troubleshooting能力维度做了评估, 站内的需求 chatgpt的满足度基本接近满分。

整体规划

         长期以来,搜索系统一直在持续改进,基于人工标注(GSB)驱动从 “智正简优”4个维度迭代优化搜索体验。搜索系统一直在致力于给用户交付的一种 优质&权威&时鲜的 答案,尽可能快速满足用户需求,让用户快速离开搜索。

         目前主流搜索引擎而言, 对于模糊需求 通过智能聚合满足多样性需求, 

          

 

        精准需求 通过首条问答 “找出答案”:

          搜索系统一直都是nlp和rank的“重镇”,典型的算法架构如下图:

      整体上CSDN搜索系统也会遵循这套架构迭代,同时需要结合实际做适当取舍。核心投入方向:

            query理解: 分词 (以及开发者领域的词典建设)、意图识别 以及乏时效性识别

            内容理解: 内容标签 、 质量分 以及 领域权威 

            上层排序: 点调 & 相关性排序以及时效性排序以及商业产品排序  以及 融合排序。目前在博客相关推荐(本质搜索),我们已经开始相关实践 博客相关推荐在线排序学习实践_CSDN搜索的博客-CSDN博客

       同时对于语言模型,也会是一个重点投入方向

           

     Why Chat + Search:

         ChatGPT出现后,从找答案 变成 生成答案;且大部分时候能满足用户需求较 DeepQA答案内容精度更好!内部研发专门评估各主流模型,

       非专业级的代码生成需求以及troubleshooting需求chatgpt的方案已经接近满分了。但是有以下几个无法根治的缺陷:

        1.  答案的时效性 (比如: 编程语言相关的问题, 期望 给出基于 最新版本python语言标准的 答案)  

       2.   事实性的答复 (比如:CSDN创始人是?chatgpt会极度 幻觉)

       3.   细粒度答复  

       4.  答案优质率以及领域权威性 

       基于此,WebGPT/WebGLM 做了很好的探索,尝试接近上面问题。典型流程参考 webglm paper 如下:       

 

            核心思想: 搜索结果页提供后续参考内容,让LLM基于参考内容来生成内容。

             效果也是比较惊讶的:   答案精度已经接近于人类了; 目前团队已经这块这块展开实践,后续再汇报相关工作!

       

         另外惊讶于chatgpt效果,搜推团队也快速尝鲜了基于Ada的深度语义重排, 收益非常显著,参见博客我的小流量“转正”心得 --- 下载下方深度语义重排的实践_CSDN搜索的博客-CSDN博客 

参考:   

     webglm   https://arxiv.org/abs/2306.07906

     webgpt    WebGPT: Improving the factual accuracy of language models through web browsing

  

  作者: 王品 李颖  邹欣   

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值