1.[INTRODUCTION ]提前的预测,指的是诸如预测到用户会在今后的某一天出差而向其 推销飞机票。
本文解决的两个工作:1。预测将来某事的发生2。触发推荐动作(如达到某一临界值即触发)
2.[Methodolgy]时间和地点的种类信息并不足以精确地做出细粒度的估计,尤其对于新用户更加困难。活动历史记录的稀疏性是显而易见的。
A.采用忽略具体时间而只是预测地点类型的方法来进行预测。但很多时候,对于新用户来说,数据仍然过于稀疏。统计学的方法是采用先验的方法,本文采用经验贝叶斯公式的方法。对整体趋势进行估计,然后采用最大似然估计的方法将整体的访问概率作为个体层次的先验。若缺失个体信息,则如此做。如有个人信息,则将其从整体模型区别出来。
[上下文参数的逻辑回归]将逻辑回归用于个人和整体模型的预测。使用的逻辑函数的形式:
变量说明:
绝对变量以0、1赋值,截距和每个变量的参数通过学习得到,
采用Gibbs sampling 的方法根据数据估计整体的参数,由此可以得到一个以整体建模的来估计个体的方法。
再构建每一个用户的模型。
B.阈值K的设定,直接判断访问概率是否超过K。最优的K 值的寻找通过定义期效用函数 ,寻找门限值K是期望效用最大化。混淆矩阵显示了四个可能的输出,给定的K决定了四个值之间的平衡。
本例中的效用函数如下?:
首先,K最起码有一个最小值,使其优越于基准的,不使用预测的方法
其次,寻求一个K使其有相对大(如果不是最大)的效用,暴力的方法成本太高。
采用贪心算法来计算K值(当是在训练集中计算)。
3。[EXPERIMENTS]实现了(a )automated data pre-processing(b)automated model learning(c)automated prediction
三个概率模型:(1)weekday (2)daysSince (3)weekday+daySince