IR是什么
粗略的理解就是在海量的信息中抓取有用的那几个,最常见的应用就是搜索引擎。百度存有千亿级别的网页,而根据用户的query需要在第一页给出最符合要求的那些。
这个领域中目前的方法可以分为两类:implicit & explicit。前者主要关注于在一堆文档中进行分类,后者关注于query的信息。当然还有hybrid的一些研究方法。
在优化返回给用户的信息时,由于query通常有着不确定性,比如我搜索"apple",有可能是想卖个肾,也可能是想吃点水果。这个时候理想的返回结果应该将二者都囊括进来。这就是今天提的多样化任务。
Metrics
- α − D C G \alpha-DCG α−DCG
对于一个已经排好的序列与qeury,首先把query分为m个可能的sub-topic,类似苹果公司与水果苹果。有n个网页根据某种算法排了个序, r i r_i ri指第i篇文档的排名(rank), y i l y_{il} yil表示第i篇网页是否涵盖了第l个sub-topic, c i l c_{il} cil表示排名靠前的文档中有多少对sub-topic l已经覆盖到了,