谈谈搜索引擎排序的一些基本方法_在文本编辑器中搜索单词或者在搜索引擎中搜索关键字时,需要使用排序算法。最高位-CSDN博客

本文链接：https://blog.csdn.net/pennyliang/article/details/6060321

我们假定一个场景，需要从小学1年纪1000个人[webpages]中，挑选[query]出10个最适合做运动员[keyword]的小朋友[page]。我们马上想到第一个方案A：让这1000个人扳手劲比力量，挑选前10个，这个方法很好，挑选出了前10个，但这个10个人真的【最适合做运动员】吗？我看跳水运动员就不合适嘛。

方案A简单，可操作，但不全面，马上可能又会想出一个方案B，给出5个指标，5个指标综合排名最好的前10个当运动员，这5个指标可能是力量，协调性，身高，平衡性，理解力。方案B比显然方案A好，但方案B挑选出的人才往往比较平均，可能在多个运动中显示出水平，但不会是顶尖水平，比如有一个力量巨大，身高很高的人，协调性差，做不了最佳的举重运动员，也成不了最佳的篮球运动员，方案B虽然全面，但用一个model去套不同的情况，必然会出现问题。

紧接着我们会想到方案C，我们对不同的运动项目做一个单独的model，去考察每个运动项目需要侧重的点，用决策树的方法对小朋友进行先分类，在分类后在进行方案B的评价。例如我们对游泳运动员的选材要求是身体修长，脚大手大，力量好，通过一个决策树，会把1000个小朋友中符合这几条的小朋友选进来，大约可能有200人，这200人在用方案B的方法，通过综合评分，最后排一个序，这样就可以找到最适合游泳的若干队员。

网页搜索也一样，对于所有的网页不可能训练处一个单独的model来给出他们的rank，必须首先经过一次分类，区分时效性查询，导航累查询，下载类查询，电话号码查询，数字查询等等，在确定了分类后，在这个确定的分类下用一个单独的model来进行排序，不同的分类对于排序的特征敏感性不同，比如时效性查询更看重网页创建的时间，而看不十分看重内容的信息量，而知识性查询更看重网页的信息量，实效性确不一定看重。

因此对查询的分类，对查询结果的分类是非常重要的先期工作，这个工作的细致与否，对排序有着重大影响。