谈谈搜索引擎排序的一些基本方法

      我们假定一个场景,需要从小学1年纪1000个人[webpages]中,挑选[query]出10个最适合做运动员[keyword]的小朋友[page]。我们马上想到第一个方案A:让这1000个人扳手劲比力量,挑选前10个,这个方法很好,挑选出了前10个,但这个10个人真的【最适合做运动员】吗?我看跳水运动员就不合适嘛。

      方案A简单,可操作,但不全面,马上可能又会想出一个方案B,给出5个指标,5个指标综合排名最好的前10个当运动员,这5个指标可能是力量,协调性,身高,平衡性,理解力。方案B比显然方案A好,但方案B挑选出的人才往往比较平均,可能在多个运动中显示出水平,但不会是顶尖水平,比如有一个力量巨大,身高很高的人,协调性差,做不了最佳的举重运动员,也成不了最佳的篮球运动员,方案B虽然全面,但用一个model去套不同的情况,必然会出现问题。

       紧接着我们会想到方案C,我们对不同的运动项目做一个单独的model,去考察每个运动项目需要侧重的点,用决策树的方法对小朋友进行先分类,在分类后在进行方案B的评价。例如我们对游泳运动员的选材要求是身体修长,脚大手大,力量好,通过一个决策树,会把1000个小朋友中符合这几条的小朋友选进来,大约可能有200人,这200人在用方案B的方法,通过综合评分,最后排一个序,这样就可以找到最适合游泳的若干队员。

 

        网页搜索也一样,对于所有的网页不可能训练处一个单独的model来给出他们的rank,必须首先经过一次分类,区分时效性查询,导航累查询,下载类查询,电话号码查询,数字查询等等,在确定了分类后,在这个确定的分类下用一个单独的model来进行排序,不同的分类对于排序的特征敏感性不同,比如时效性查询更看重网页创建的时间,而看不十分看重内容的信息量,而知识性查询更看重网页的信息量,实效性确不一定看重。

 

        因此对查询的分类,对查询结果的分类是非常重要的先期工作,这个工作的细致与否,对排序有着重大影响。

        

        

  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值