机器学习排序较多用于广告系统而很少用在搜索排序

最新推荐文章于 2021-11-18 12:05:00 发布

nickname_oo

最新推荐文章于 2021-11-18 12:05:00 发布

阅读量1.2k

点赞数 1

分类专栏：搜索文章标签：机器学习排序使用场景

搜索专栏收录该内容

17 篇文章 0 订阅

订阅专栏

主要原因有二：

1.在机器学习系统里，弄清楚为什么一个检索结果比另一个结果排序更高很困难。某一个具体策略的原因非常难以捉摸。很多机器学习算法均是黑盒，顶多告诉一些权重与模型，它们很难表述清楚一个具体策略的原因;

2.在一些场景下，即使人已经成功的分辨出基于哪些因素，使得一个结果比另一个结果的排序靠前，但依然很难构建一个机器学习系统，在单独的场景下，去拟合这些因素的权重。施加到一个机器学习系统的信号与特征，只能间接的影响输出层的权重信息，而这种直接控制的缺失，意味着即使一个人可以清楚的解释为什么一个检索结果比另外一个更好，但依然无法将这种人工干预直接施加到一个机器学习系统中。基于规则的评分体系，依然复杂，但使得工程师可以直接的调整不同场景下的排序权重。从谷歌在网页搜索上的领先可以看出，这种策略的选择，保留了对结果的可解释性与可控性，使得谷歌的搜索结果质量改进工作迭代快速且提升显著。而广告排序，则倾向于是一个优化问题，相对于两个具体的检索结果，两个广告的质量非常难以比较。相对的，一个检索句对应的两个网页结果具备明显的不同，可以通过人工评分的方式辨别其质量。在搜索引擎中一个只有三行或者四行的广告对用户来讲往往是类似的。用户往往可以非常容易的辨别出一个不好的广告，但是很难分辨出两个都有道理的广告哪个更好。品牌的不同，小的文字差异，用户行为的跟踪，这些人难以感知的东西，却容易被机器辨识，它们在广告的场景下也更加重要。另外的，不同的广告主有不同的预算与投标，这使得广告排序更多的近似于一个收入优化问题，而不是一个质量优化问题。因为人很难通过经验的总结，弄清一个广告排序系统如何才能运转的更好。可解释性，可控性虽然在网页排序中非常重要，但在广告搜索中则不重要的多。如此机器学习变成了一个非常好的选择。

其实谷歌曾经尝试了很多机器学习方法，但当他们意识到采用基于规则的方法将取得更快的质量改进速度时，他们果断改换了方向。这绝非是一种偏见，这是很多搜索组经过尝试而得到的结论。

最后，当前的各类机器学习算法在“一般情况”下表现良好，但对于“特殊情况”是无力的，而搜索引擎的评价指标，例如准确率，召回率，RMSE等，仅仅描述“一般情况”的。也就是说：机器学习方法非常容易拟合已经得到的数据，但在未见数据上将导致灾难性的问题。谷歌依然采用人工规则的方式操作检索结果，并未完全切换到机器学习方法上，Peter-Norvig给了两个原因： 1.人类专家认为，他们可以设计比机器学习模型更好的算法; 2.第二个原因非常有趣，谷歌搜索团队担心人工智能模型在那些与训练数据不同的未见数据上，可能导致灾难性结果(非常差的BadCase)，他们相信，人工构建的模型，将相当程度上规避这些问题。

nickname_oo

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习排序较多用于广告系统而很少用在搜索排序

主要原因有二： 1.在机器学习系统里，弄清楚为什么一个检索结果比另一个结果排序更高很困难。某一个具体策略的原因非常难以捉摸。很多机器学习算法均是黑盒，顶多告诉一些权重与模型，它们很难表述清楚一个具体策略的原因; 2.在一些场景下，即使人已经成功的分辨出基于哪些因素，使得一个结果比另一个结果的排序靠前，但依然很难构建一个机器学习系统，在单独的场景下，去拟合这些因素的权重。施加到一个机器学习系
复制链接

扫一扫