相关性

主要维度
•     文本相关性
文本角度的相关度匹配
•     权威性
相关前提下选出更优质/权威的结果
•     需求满足
同样的关键词有不同的含义,分析用户需求并给出适合的结果


特征提取层
1.     页面级别特征
     a.     主题分析
          i.     真实标题,子标题
          ii.     面包屑,key-value对
     b.     入链anchor分析
     c.     页面类型
          i.     例如,图片页面上tf起到的作用不大
     d.     页面质量
          i.     例如,对空短页面的赋权
     e.     站点/频道的属性
          i.     如,汽车网站上,隐含“汽车”的term
     f.     正文提取/边框去噪

2.     term级别特征
      a.     结构特征
           i.     粗体,在主题中,在引号中,表格字段
           ii.     分布密度
      b.     语义
           i.     Idf
           ii.     定义次
           iii.     上下文关系

权值计算层
1.     单term计算
2.     多term合并计算/排序

地图搜索相关性:

1.query搜索本身的因素考虑
    计算query的意图和指向
    query和目标区域的匹配程度
2.地域相关性
   地域特色的考虑
   距离远近
   地域邻近域的特征描述
3.个人用户的行为特征
4.相似性用户的特征推荐


购物搜索相关性
1.产品标题和自身描述等因素(基于内容的)
2.价格因素的考虑


图片搜索相关性
text-based image retrival
content-based image retrival

image feature:sift method
bag of words model

网页搜索相关性
url, anchor, title , body
滑动窗口打分,针对single term 和 pair term 打分
主要考察指标:
pr,sitepr,dist,offset,term attr, tight weight, token weight,indomain和outdomain
core title命中,title命中紧密性,完全命中及个数
query intent 和doc type的匹配性提权等
考察ranking optional 和 retrieval optional相关信息
其中的方法:term 重要性和关键字匹配

anchor:anchor信任度提权,完全命中anchor的数目,以及所占anchor的比例,anchor所在位置,anchor的商业意图等
           判断indomain和outdomain的个数比例
url:是否命中domain或者host,以及缩写的命中等,site rank,是否官方网,以及url级别和站点级别等
body:滑动窗口打分, windowscore = ∑singlescore + ∑pairscore
        singlescore:token weight, positionDecay, weight_sum , demote_factor.
        pairscore:mean_weight ,dist_factor  ,order_factor ,sectionPositionDecay, demote_factor



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值