今天下午听了一个学术报告《Relevance Ranking: from Web Search to Vertical Search》,报告人是来自于美国Yahoo的常毅,目前是中科院计算所在硅谷的校友会负责人。报告时间是:14:00-15:30, 计算所四层报告厅
下面我将对重点内容进行一些记录,对于搜索领域我了解的不是很深,因此很多内容不会做过多解释,毕竟能力有限,如果想了解更多的内容,请大家去查看他的相关论文即可。
1、搜索引擎发展的3个阶段
(i)1994-1998,Syntactic Matching
这个阶段主要是采用一些字面信息的匹配,比如TF-IDF等技术。
(ii)1998-2000
这个阶段主要是挖掘了一些内部的信息,比如网页之间的链接分析、点击等。
(iii)2000-现在
这个阶段更多的是对用户搜索的意图等进行理解,以问答方式或者其他方式展现给搜索用户。
总体而言,搜索引擎的发展的趋势就是利用表面信息逐渐到深层次内部信息,从鲁棒的返回到更加智能化的回答。
2、PageRank
想必大家都应该了解这个,PageRank是Google之所以能够成功的一个很重要的算法。它把互联网上的每一个网页或者网站类比成图中的结点,网页之间的链接关系类比成图中的有向边,然后建立成一个规模很大的图,然后通过random walk的方式计算出每一个网页或者网站的PageRank值,这个值决定了排序的相关性。
3、一些著名的搜索引擎:Google, Yahoo, Bing, Baidu, Yandex(俄罗斯地区), Qihu。搜索引擎的商业价值不言而喻,都达数十亿美金。
4、Machine Learning Rank
利用机器学习的方法进行相关性学习是一套架构,里面包含具体的算法、数据以及特征的选择。它把每一个query和URL构成训练文本,<query, URL>,然后标注成PEGFB五个标签(P:perfect, E:excellent, G:good, F:feel, B:bad),然后通过learning to rank或者其他机器学习算法进行训练模型。评价指标一般选择DCG。Machine Learning Rank的一个框架图大体如下图1所示:
图1:MRL框架图
5、Learning to Rank
Learning to Rank算法一般包含3种情况:
(i) Point-Wise L2R
该种将训练集<query,URL>看成是二维平面上的点,利用回归分析进行预测相应的值。
(ii)Pair-Wise L2R
没听明白。
(iii)List-Wise L2R
直接对优化目标函数DCG进行训练调参。
6、How to compete with bigger competitors ?
(i)new strategy, new marketing
(ii)beat competitors in core relevance
(iii)vertical search
(iv)difference services
如何同强大的对手进行竞争? 新策略,新市场营销策略,以核心相关度计算,垂直索索以及区别化服务等。同强大的或者已经占有很大市场竞争份额的对手进行竞争,的确是一件很具有挑战性的工作。不仅要做好本分的工作,同时还要做出有区别性的服务在里面,找到自己的立足点。
7、Vertical Search Ranking
垂直搜索一直不被学术界所引起重视。垂直搜索不像传统的web search一样,对于每一个领域而言,搜索的问题都不一样。对于商品而言,相关性、评论以及距离等都是很重要的排序指标。在具体的领域做搜索,要充分考虑到该领域的特点并且要修改相应的排序算法。
=======================================================================
总结:对于这个报告,我只听懂了皮毛一些知识,真想成为这个领域的专家,不仅需要大把的时间投入,也需要一定的平台去施展自己的才华。