本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展
主流的点击模型大都基于点击模型方面最基础的研究,认为用户在浏览搜索引擎时采用的是沿着搜索结果列表从上到下依次浏览的方式,根据这个假设,用户的浏览顺序与搜索结果的位置顺序是一致的。因此大多数的点击模型都是基于位置的构建方式(我们称作基于位置的点击模型)。另外,由于点击模型中最主要的信息来源为用户的交互信息(主要是点击信息),因此模型对于用户行为以及结果相关性的推断都来源于点击行为。因此大多数的点击模型都假设搜索页面中的所有结果是同质的(所有具有类似的形式,仅在内容上有所区别,对应到模型中即为仅在结果相关性上有所区别),在排除结果相关性影响之后这些结果对于用户的行为不构成影响。
点击模型的基础是概率图模型,不同假设带来不同的模型。常见行为(event)注明如下:
E:某条搜索结果被用户检验的行为。
A :某条搜索结果吸引到用户的行为。
C :某条搜索结果被用户点击的行为。
PBM(Position-based Model )基于位置模型
Position-based Model 的假设:各搜索 Session 可产生多次点击行为,而文档是否被点击,由两个因素决定:
- 文档是否被检验,即检验度(直观来说,就是这个搜索结果能否被用户观测到,更进一步说,文档是否处于显眼的位置,更往前的搜索结果被检验到的概率更大),在 PBM 的假设中检验度仅仅和搜索结果的位置有关,是独立概率;
- 文档是否能吸引用户,即吸引度。这个概念和搜索词和文档的相关性不同(但如果希望以相关性作为排序重要标准的场景下,例如疾病搜索等,应该以相关性为主),但以吸引度为排序依据,可以有效提高搜索词的点击率。
PBM 的概率图模型下图所示:
PBM 的概率公式如下:
其中 P ( A u = 1 ) = α u q , α P(A_u=1)=\alpha_{uq},\alpha