亮点:
结合长短期用户行为构建用户profile
贡献:
- 提出了一个新的统一建模框架,该框架提供了个性化的不同参数的综合视图,并控制了关键方面,如行为生成的特征和使用的衰减因子。
- 确认了这样的直觉:长期行为在会话开始时是有用的,而短期模型会随着会话的进行而产生收益。
- 提供关于搜索个性化的新发现,例如会话中第一个查询的特殊属性,以及学习为每个查询组合短期和长期功能的模型的强大性能,而不是简单地聚合所有特征;表明单个查询从短期和长期个性化中得到不同的好处。
个性化框架
图1说明了构成框架的三个时态视图之间的关系。该图还显示了当前查询的位置。为了捕捉用户当前的焦点,可以只基于最近的交互来构建一个模型。在本研究中采用的一种方法是研究session交互。考虑用户在当前会话之前与搜索引擎的历史交互,可能包括许多天或数周的活动。这种长期信息可能有助于消除不明确查询的歧义,方法是优先选择已知用户感兴趣的主题的结果。由于信息查找任务可能会扩展到多个session,当前session可能与以前的session相关。这意味着一种模式,可以在一个不断变化的时间窗口内汇总所有历史,有效地将短期和长期利益结合起来。
框架评估
给定用户发出查询q,从用户过去搜索交互的时间视图来看,view(
u
I
u_I
uI),可以考虑所有相关的查询related(
q
q
q,
u
I
u_I
uI),其中
u
I
u_I
uI是用户过去发出的查询集、搜索结果以及用户与结果之间的任何行为交互。重点关注的是点击。函数related(
q
q
q,
u
I
u_I
uI)返回一组与
q
q
q相关的查询。对于每个相关的查询
q
q
q,为该用户的当前查询建模其与当前查询的关系强度
w
w
w(
q
r
q_r
qr,
q
q
q,
u
I
u_I
uI),缩写为
w
w
w
q
q
q
r
_r
r。对于每一个文档
d
d
d,考虑它与当前查询
q
q
q的相似性sim,还可以考虑用户对文档采取了什么操作(表示为action())(例如,满意的点击表示文档是相关的))。可以通过选择相关的查询函数、关系权重、相似度和动作来参数化一系列与个性化相关的特征:
向量映射:
Query选择和权重设计
- 设定session(周/月)
- 设定时间权重:使用衰减因子为每个session分配相应的权重(可以假设最近的交互比远期交互更重要)
文档URL嵌入:
one-hot
文档主题嵌入:
ODP/LDA
action
STA(满意点击)
SAT点击需要用户在结果上停留至少30秒,或者终止搜索会话(一个session中的最后一个点击)
需求点击熵:衡量用户点击的多样性。较高的熵表示具有更多意图的查询
需求主题熵:较高的熵表示局部模糊。
实验
数据集:微软BING搜索