SPTF:用于语义感知行为预测的可伸缩概率张量因子分解模型
摘要:
随着各种电子商务和社交网络平台的迅速兴起,用户产生了大量的异质行为数据,如购买历史、添加到喜欢、添加到购物车和点击活动中,这种用户行为数据通常是二进制的,只反映了用户的做了或没做(即隐式的反馈数据)。张量分解是通过区分不同的行为类型来模拟异构用户行为的一种有前途的方法。然而,在解释未观察到的用户行为记录时会产生歧义,这些记录混合了真实的负面示例和潜在的正面示例。现有的张量因式分解模型要么忽略未观察到的实例,要么把它们全部当作否定的实例,要么导致预测性能差,要么导致计算成本高。此外,正示例w.r.t.行为类型的分布严重扭曲。现有的张量因式分解模型会偏向于有大量正面例子的行为类型。
本文提出了一种可扩展的异质行为数据概率张量因子分解模型(SPTF),并开发了一种新的负抽样技术,利用观察到的和未观察到的实例,以更低的计算成本和更高的建模精度来优化SPTF。针对行为数据分布严重偏态的问题,提出了一种基于自适应排序的正抽样方法,加快了模型的收敛速度,提高了稀疏行为类型的预测精度。我们提出的模型优化技术使SPTF能够扩展到大规模行为数据集。在一个大型电子商务数据集上进行了大量的实验,实验结果表明我们提出的SPTF模型在预测精度和可扩展性方面具有优越性。
introduction:
隐反馈数量较多,但都是正反馈,缺少负反馈。SPTF学习每个用户、项目和行为类型的潜在向量表示。张量是物体之间多重关系的有用方法,张量因式分解被认为是预测物体未来可能关系的重要手段。然而,现有的张量分解模型,如bptf[30]和rescal[15]忽略了所有未观察到的例子,正如矩阵分解模型[8]、[25]对显式反馈数据集所做的那样。由于正例的极端稀疏性,这些张量分解模型很难精确地建模和预测语义感知的用户行为。为了避免把全部未观测的数据都当做负样本,造成计算量大的问题,我们提出了一种新的双向流行偏负抽样方法,对每一个观察到的样本中很少的未观察到的信息样本进行抽样,并纠正了将所有样本都视为负样本的偏倚。如果我们像大多数基于随机梯度下降的优化方法[24]一样,一致地绘制一个训练案例并对绘制的案例执行随机梯度下降,那么大多数抽样的正样本都会与点击行为相关,并且训练后的模型会严重偏向点击行为。为了克服异质行为数据分布的严重偏态性,提出了一种新的基于自适应排序的抽样方法,并给出了实证。其基本思想是,较低阶的正例应该具有较高的抽样概率,因为这种正例更具信息性,有助于修正当前模型参数。
A问题定义
设u= {u1,.…,ui}是所有用户的集合,v={v1,。…,vj}为所有项的集合,t={t1,。…,tk}是数据集中所有行为类型的集合。i、j和k分别用于表示用户数、项目数和行为类型。我们使用三元组来表示语义感知行为记录,即xikj=(ui,tk,vj)。我们将这组用户、项目和行为类型的每一个可能的三元组xikj=(ui、tk、vj)建模为一个二元随机变量yikj∈0、1,表示其是否存在(即是否被观察)。u×t×v中所有可能的三元都可以自然地组合成三阶张量,其项如方程(1)所示。我们用D+表示观察到的三倍体集合,用D-表示未观察到的三倍体集合。这里,按照常用的符号表示法,大写粗体字母表示矩阵或张量,小写粗体字母表示列向量。
B模型描述:
为了模拟语义意识异构行为,我们提出了一个新颖的概率张量分解模型,每个 用户、项目和行为类型被指定为D维潜在因子向量,相应的称为Ui,tk和vj。用符号Θ表示模型的参数集。Θ = {ui, tk, vj|u ∈ U, t ∈ T , v ∈ V}。在我们的模型里,假设所有的是给定用户、项目和行为类型的条件的、独立的潜在向量。我们的模型通过一个得分函数f(xikj; Θ)预测-三元组XiKj的存在,这个函数表示给定参数之后,这个三元组存在(用户特定行为的发生)的信心。我们模型的条件独立假设允许的条件模型如下:
这里σ(x) = 1/(1 + e−x)是sigmoid函数,Ber(y|p)是伯努利分布,定义如下:。这是很多张量分解的方法,像Tucker分解(TD),规范分解(CD)和成对交互分解都可以在SPTF模型上实现得分函数。Rendle等人对基于BPR优化框架的所有张量分解的方法进行了实证比较,发现PIF一直表现较好性能,花费最少模型训练时间。因此,我们在SPTF模型上采取成对交互分解去实现f(xikj; Θ)
。
受概率矩阵因式分解[25]成功的启发,我们引入了高斯先验参数Θ。最后,我们模型的概率生成过程如下:
基于上面的模型概率生成过程,通过简单的贝叶斯推论,用户、项目和行为类型的潜在向量的后验分布如等式5,U,T,V是三个由ui, tk和 vj作为他们列向量的矩阵。我们的目标是最大化等式5可能性,即相当于最小化等式6中-log的可能性,正则化参数:
C模型优化
直接最大化等式6的计算量巨大,由于未观察到的示例数是用户或项目数的三次方。此外,并不是所有的为观察的样本都是真实负样本。受负样本采集方法【13】【2