最近因为工作需要,涉及到了Learning to Rank的问题,这里会记录我学习中的每一个有意义的步骤。
抽象问题
想要解决一个日常生活中的问题,最关键的往往不是使用具体哪一种方法,用什么框架,而是如何把问题抽象出来?并且如何设计训练集?
那网页排名来举例,这个问题传统上是利用人为构造得分函数来实现的,比如BM25等;但近年来这一问题已经被转变为一种监督式的机器学习。
- 训练集
训练集可以表示为{(xqj,lqj)}
其中: q∈(0,n) 表示querys的数量; j∈(1,mq) 表示该条query所含有的文件数; xqj∈ℝd 表示query q 和第j个文档所对应的d维向量,而 lqj 表示 xqj 的相关系数。