汪峰,上不了头条是有原因——解密百度搜索突发时效性事件处理

​你有没有想过,搜索引擎是如何处理那些突发性事件的?很多时候,当我们发现了一个热点,百度永远都是比我们更快的知道,并且已经带上了事件特征,比如某位明星突然去世,对应的百度百科会变成暗色调。

按照搜索场景来区分,时效性其实可以分为突发时效性、泛时效性和周期时效性。

突发时效性:就如上面说的紧急突发的事件,时效性需求是突然出现的,比如突发新闻、热门话题、热门资源等。

持续性时效性:是指事件本身具有实时更新的特征或者事件的发生时间具有不确定性,这些类型的事件所引起的用户的时效性需求统称为持续性时效性需求,用户的搜索query除了本身的资源需求外,还隐藏着时间属性的需求,这种时间需求也同样影响着搜索的质量

周期时效性:周期性事件等原因所引起的用户周期性需求,用户的需求出现存在周期现象,比如国家每季度GDP,上市公司财报等。

每一类时效性事件处理方法不同,今天我们就来讲讲在搜索引擎中,突发时效性事件怎么处理?

 

突发时效性从定义上可以看出其重要特点是突发,所以具有很强信号特征,当发生突发事件后,某些类型的搜索query数会激增,而query对应的资源量也会激增,此时可以识别这些突变信号和特征,对突发时效性判断是非常有价值的,因在线模型有延迟性能的要求,因此可以使用传统的LR模型。

总体模型架构如下:

 

 

特征主要如下:

1.突变点检测:突变点的检测,能够发现流量的变化位置,从而能够为突变点检测提供判断依据,突变点检测为信号学主要研究内容,它的检测方法有傅里叶变换、小波变换等方法
2.用户的实时query特征:主要包含实体类型、Query类别、query语义及分词信息等
3.聚类特征:针对实时产生的新闻,会根据其事件内容进行聚类,通过聚类所计算的热点和事件等特征来进行突发时效性判断
4.趋势特征:根据pv和uv的变化量获取趋势特征

 

对于任何一个模型都需要评估其好坏,除开本身的模型指标,还可以从以下两个业务指标来评估突发时效性:

1. 当前时间点的突发时效性Query识别的准确率和召回率
2. 在事件发生后的特定时间点上搜索引擎对和本事件相关Query的召回率和满意度

可以采用分段评估的方式,在事件开始10分钟、30分钟、1小时,以及随机时间点分别进行准召和满意度的评估

时效性判断结果影响搜索引擎内部结果及自然结果排序,最终会影响整体搜索引擎的用户体验,所以时效性判断对于大搜搜索引擎来讲是尤其重要的。

 

最后扯到热点,还是感慨一下汪峰,每次汪峰有大事件,都有另一个大热点赶着趟来,但转念想,头条被抢也是热点啊,不亏。

 


最后欢迎关注同名微信公众号:药老算法(yaolaosuanfa),带你领略搜索、推荐等数据挖掘算法魅力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值