个性化商品搜索相关研究梳理

© 作者|张君杰

研究方向 | 推荐系统

在商品搜索模型中,个性化的引入不仅会改善用户的搜索体验,也会为电商公司提供更高的收益。近年来,研究人员针对如何在商品搜索中引入个性化开展了大量工作。本文对个性化商品搜索的相关研究进行了整理与分析,文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!

引言

    近年来,随着互联网的蓬勃发展,电子商务变得越来越流行。当用户在购物网站上购买商品时,搜索引擎会根据用户递交的查询,搜索出相关商品的排序列表,帮助用户挑选商品。

然而,用户递交的查询通常仅由几个关键词组成,其表达的意图往往模棱两可,无法反映用户潜在的搜索意图,进而导致搜索结果不尽如人意。除此以外,用户对商品的偏好可能是多样化的,如受到年龄,性别,以及当前环境的影响。

因此对于相同的查询,向不同的用户返回相同的搜索结果显然是不合适的。为了改善搜索性能,搜索引擎应当利用用户的历史行为(如评论,评分等)建模出用户的喜好,从而检索出满足用户搜索意图的商品,也即个性化商品搜索。

本文整理了个性化商品搜索模型的部分研究进展,欢迎大家批评和交流。

研究进展

1. Learning a Hierarchical Embedding Model for Personalized Product Search (SIGIR 2017)

    作为个性化商品搜索领域的开山之作,本文针对用户对搜索结果提供大量显示反馈(评论)的搜索场景,提出了hierarchical embedding model (HEM),联合学习用户,商品,查询的隐语义表示,并利用查询和用户向量的凸组合,来预测购买的商品。

    具体来说,HEM可以分为三个部分

1首先,受paragraph vector model启发,HEM通过构建语言模型,从用户和商品的评论中来学习他们的分布式表示,即要求用户和商品预测评论中单词:给定用户或商品的表示d8e3d782f85a270fc7c10a80ed74165f.png,以及与他们相关的评论1d2092362fac747af367a411c12ad639.png中单词的表示abf8171c9adc8cf27a1502f3477638ed.png. 从64ba1dbda7d9db133dee17f02486c898.png的语言模型中生成c6045e3f194c9ca7d2c88d99ccd093e2.png的概率即可定义为

0eecb99de91f2a4239ffb0c638b0fc39.png

通过优化该概率,从而优化31fbc55c58e94e02b88156e5c4cd72bf.png的表示。

2)其次,利用查询中的关键词,来学习查询的表示。本文通过在平均词嵌入的基础上加入非线性映射,得到查询向量:

63693d8805e15126948ee896a3500ed5.png

3)模型的第三部分在于建模用户的购买意图,并以此来预测购买的商品。作者认为用户的购买意图86216c0d88f316da45d57d400e984c40.png 由查询意图39fca05b6bcff584c0caad22c29d35cf.png和用户偏好f9936a0a094adf11c669fa9357d5c6b0.png两部分组成,并假设5ab9c14a4efdc07a154daac3d891991a.png814128cd9157e37acef1808e51dabfca.png不相关,通过二者的凸组合得到购买意图683efa49e53bfe33be3a4f7ed3bc15f9.png

    此时用户购买商品的概率即为

3fc5708a4e1f8c8a918a90f4c4380e7a.png

1c68590edf621fee7f56c67c0e242cc3.png

    将上述三个模块组合,通过极大化被观察到的用户-查询-商品三元组的似然,学习到三者的分布式表示,即最终的优化目标为:

729211991efc419a0ca1e52f2222912e.png

2. Attentive Long Short-Term Preference Modeling for Personalized Product Search (TOIS 2019)

    本文作者指出,在建模用户偏好时,需要同时考虑长期偏好以及短期偏好。前者指用户固有的,且相对稳定的购买偏好,如喜欢的颜色,合适的尺寸等,一般受个人背景潜移默化的影响。而后者指的是用户在较短时间内且变化频繁的偏好,受偶然事件的影响,如季节变化等。这二者都会影响用户当前的购买意图。为了同时建模这两类偏好,作者提出了 Attentive Long Short-Term Preference model(ALSTP). ALSTP通过两种注意力网络,分别学习长期,短期偏好及其与查询之间的相关性,使得模型能够正确的建模用户当前的购买意图。

    总的来说,模型可以分为三个部分:短期偏好建模(ASTPM),长期偏好建模(ALTPM)以及用户购买意图建模(QRI)。

d8f04ace2ef15bf98ca5378591c0694d.png

1)首先是短期偏好建模,ASTPM通过近期购买的 m 件商品来表征短期偏好。具体来说,将用户最近购买的 m 件商品的表示584437fc1167732b767c67388aed8b44.png 作为GRU模块的输入,并以其隐层3c0b2f89c5263dca4b558fa8ae3e0f86.png 表示用户的短期偏好。然而这 m 件商品对于当前的查询来说并不是同样重要的,因此作者引入注意力机制,分别计算前 m 次查询与当前查询的相关性,得到最终的短期偏好47246883106ecb97d7798ed97962b50c.png

2)其次是长期偏好建模,长期偏好相对稳定,更新缓慢。ALTPM通过早期购买的一组商品来初始化长期偏好,并通过随后购买的商品对其更新。令700d5da91dd36c6c7d7eae6286c52001.png 表示长期偏好,用最初购买的 m 件商品的表示来初始化,然后每购买 m 件商品就对其更新:7b9b00079e03b83bdd91dc3969ab813b.png,其中8361bd90125dd2c3b2547e3623cb3252.png表示短期购买的 m 件商品在GRU模块中最后一个隐藏状态。同时,针对长期偏好的不同方面,引入注意力机制得到长期偏好表示54a6252eecb3d30ed58e3c641ba81f86.png

3)最后是用户购买意图建模,将查询f6874bc9ea4ff634366f805f4af59e6c.png,短期偏好5c0c415a88bf6177d4a6efa6b9a9701d.png,长期偏好47a0a15e06256dc001de1c24a88b2ec0.png拼接并输入至DNNs,得到购买意图62c6738f49e9289fb6eae448a96c918d.png,则每个商品的得分即可由3a45fd17572c439da0b5774974bd65fc.png计算,其中eace584630e94051ea0ec5ea54b1ad9f.png为距离度量函数。

3. A Zero Attention Model for Personalized Product Search (CIKM 2019)

    本文作者观察到个性化并不总是具有积极的影响。只有在个体偏好与群体偏好显著不同时,个性化模型才会优于非个性化模型。尽管引入个性化机制可以提供更多有关用户偏好的信息,但这也不可避免的引入了噪声,有时反而会损害检索质量。因此,确定何时以及怎样个性化是非常重要的。

    作者通过大量预实验发现,个性化在商品搜索中的重要程度往往取决于查询及其与用户的购买历史之间的交互。为此,作者提出zero attention model (ZAM), 通过在用户的历史购买序列上应用注意力机制并允许注意力网络关注额外的零向量,成功的做到了不同程度的个性化。

    具体来说,令 0a84f3ee3152af22944e09ee25736d74.png 表示零向量,则用户 3040b396a80cb2fae8e48f6c01189218.png 即可表示为

5db289f5329873b1736528fb3ae66fca.png

    其中76e32198d068ecc332d4463ee183a914.png 是查询fb42f9b80ab0f3aeff7254e105fefb44.png对零向量的注意力系数。

    令8ffa89e43c60fb904ae18753ea21e2e0.png表示由be8aa676a3266a52f3816e11be0495aa.png构成的向量,则上式可变形为

43780a83211b73a0be512662973b0260.png

    其中f8bdaf518e4667887ab0b484c1af80fe.png是由用户历史购买的所有商品的表示组成的矩阵。从上式可以看出,这实际上是关于83d5a54b5da99dcb6b30ac55c02512a4.png的sigmoid函数。也就是说引入零向量实际上就是通过引入激活函数,动态的控制用户购买历史在当前搜索中的影响。此时,只有当用户历史购买商品与查询相关时也即用户对与当前查询相关的商品表现出显著的兴趣时,用户表示335fb97944a48aecb0e3d95c67dff92c.png才能起到作用。否则搜索将由查询向量577d0bb085e637ef803353295937a61b.png 主导。从而使得ZAM能够在不同的搜索场景中进行不同程度的个性化。

33505daa7516e141f3cac7aaca8f5e49.png

4. A Transformer-based Embedding Model for Personalized Product Search (SIGIR 2020)

    本文作者提出,尽管ZAM通过在注意力机制中引入零向量,实现了动态控制个性化的程度。但由于用户购买意图84c5930817fe772d5fd0fc6573fc2825.png仍建模为3f1d838657a07285737c37ae2544a10d.png。因此在ZAM中,个性化最多与查询相同重要。为此,作者提出TEM,通过Transformer结构来编码查询和历史购买商品,从而做到从无个性化到完全由个性化影响的动态调整。模型的整体结构如下所示:

6d526e9280699c012aadf7e124297ee8.png

    具体来说,令049f89155dc1fd4401ad3174821515de.png表示用户b19e8da95bc59b1833bcfe9fa9fccfe8.png 的历史购买商品序列,通过将序列d3bde4d9022a27461ccd725c5bdfcc9d.png输入到8968d18111c4c9936bfd774d841e808f.png层Transformer编码器中,用户的购买意图即可由查询eaa401e379120174c2d098d54e452fcd.png在第3331c866e856b37ef0b69e2c92567344.png 层的输出向量表示,即令25a9fecd4bd64aedd051bd2271ca8188.png

    Transformer编码器使得91ef5cb94483b40fe49531885d173dc7.png 计算了查询7d8dfa85673544f66bfac0802a40e3af.png以及历史购买商品序列之间的交互。并且通过学习编码器中的参数,进一步提升了个性化程度的调整范围,做到了从无个性化到完全由个性化影响的动态调整。

5. Explainable Product Search with a Dynamic Relation Embedding Model (TOIS 2019)

    作者提出,搜索引擎和用户在认知商品的相关性方面存在一定差距。如果不对搜索结果加以解释,用户可能无法理解为什么搜索引擎会搜索出这些商品,导致搜索引擎实际效果不好。为此,作者提出Dynamic Relation Embedding Model (DREM). 通过联合建模不同用户和商品的知识以及静态和动态的关系来构建知识图谱。并以此来聚合多关系的产品信息,从而进行个性化搜索。最终在知识图谱上进行逻辑推断产生解释。

3943feb4d4f1f66e70267b898ea485ae.png

    为了使DREM可以进行商品搜索,作者设计了一条特殊的边1737f634b5612000dc7798e12f294dfa.png来建模用户和商品间的关系。但很显然,这种关系是动态的。用户的购买意图在不同的搜索会话中是不同的,没有搜索上下文,就无法确定用户与商品之间的关系。为此,作者分别进行静态和动态的关系建模。并在建模动态关系时,以用户提交的查询文本作为搜索上下文进行建模。

    DREM通过在知识图谱中寻找从d83a3ee799dbae91f44e9b32e091be03.png4c0630d1bfc864e3f15fd7b03b589ed6.png的路径,来解释搜索结果。但由于数据稀疏,这样的路径可能不存在,为此作者提出Soft Matching Algorithm (SMA),通过Dijkstra算法以及计算匹配概率,找到最优的解释路径。

be9ddfbd0c04dd56b878aa80158df020.png

6. Structural Relationship Representation Learning with Graph Embedding for Personalized Product Search (CIKM 2020)

    作者认为之前的一些工作没有利用到用户搜索场景下的结构信息。为此,作者提出一种新的方法:Graph embedding based Structural Relationship Representation Learning (GraphSRRL),利用‘conjunctive graph patterns’进行图嵌入学习,从而学习到用户-查询-商品交互中的结构信息以及用户(查询,商品)之间的相似性。

    作者定义了三类conjunctive graph patterns:

1)用户97ae6b2ae5ad252c6d770dc57f25b3a4.png在提出相同的查询cca23ba212e39bd61aa64a3aae96de01.png下购买相同的商品1bd533d6e78381b7ae8bb8112c297e99.png

c579e3f0b7b2dedfd41c4aecf9791134.png

2)用户5da9344ebee4d66f2a17419c5d6a623d.png在提出查询 9b185cc274b3faadf26295a21d2c1b67.png下购买了商品1d9f2d516f6f60d763ebbe6d4272cd3a.png

9b4e4d6acf594e33ddaedc5ffc02c51e.png

3)用户 8273b68a39a1aaa0779e92682c188682.png分别提出查询3bbe30da1f9cc29a868a828edc1521a9.png并购买了相同的商品67204f4fd1940698fcf4c12ee6ce9e71.png

3fcdf4c375fea1b755d8a4444f63cd1b.png

94fa78c82a302ad885c5d37cd0781654.png

    模型整体分为两个模块:图嵌入模块以及个性化搜索模块。在图嵌入模块中,通过定义映射算子和交叉算子,利用这三类特征来学习交互中的结构关系以及用户,查询,商品的embedding.而个性化搜索模块则利用学习好的嵌入表示作为输入进行个性化搜索。

7. IHGNN: Interactive Hypergraph Neural Network for Personalized Product Search (WWW 2022)

    与GraphSRRL类似,作者认为现有的工作没有充分利用到隐藏在历史交互中的协同信号。并且作者认为GraphSRRL仅利用到自己设计的三类conjunctive graph patterns,这是远远不够的。为此,作者提出一个新的模型:Interactive HyperGraph Neural Network (IHGNN)。基于历史交互构建超图,并以此来编码协同信号,从而改进个性化搜索的效果。

5a1e1e1c7bf75145c1a8ebf353edfdf1.png

    如图所示,IHGNN共包括四个模块:

1)超图构建模块:基于user-product-query历史交互构建超图554fdd82e6e5f70c00da2f8e187f4221.png,其中节点集101ecb7a9212f1d79fda112feb0ce24b.png包含全部的商品,用户及查询,超边集f66ef5237d1688b59a1eec76efcdbe58.png包含全部的dc42d2587b8d1d6b779c4902cbb07f1b.png三元关系。

2)Embedding 生成模块:初始化节点的表示。

3)聚合模块:利用邻接点信息来优化embedding。由于构建的是超图,因此信息分两步传递。对于任一个节点,先将其邻接点的信息传递到相关的超边中,再利用超边的信息改进该节点的表示。值得一提的是,作者认为传统的线性聚合方式是不充分的。在个性化搜索中,邻居节点之间的交互是一个非常强的信号。比如一位用户提出查询“女士包”,并购买了“爱马仕”牌的包,通过query与product之间的交互,可以生成出一段对建模用户偏好非常有用的语义:“女士奢侈品牌”。为此,作者提出需要建模邻居节点之间的高阶特征交互。

8074b0cbfb5ab7adc0a724aa95e998b3.png

    具体来说,给定任一节点05a96ccc7413b1985df66acfbe0a40b8.png,对于任一与它相接的超边2d9383f856acabbbce59281008574b51.png,先将邻接点570de513cbd3c9e0356635550d3f99e8.png的信息传递到15ead683e29186c08fc6464175dd9786.png中:

563b6b921c31f854ae860a1c6e8fda63.png

    再将超边的信息传递给15626c4ff5d22f782c5dccf310a5188b.png :

46e3b11d819e5bdb8d4ccc512b8fb770.png

4) 预测模块:利用学习到的embedding进行预测。GraphSRRL利用自己设计的conjunctive graph patterns进行学习,如用户7611d37380228e3ce1352dd717288d09.png在提出相同的查询51383dda1d6d80f5e1bfd94c67ac6925.png下购买相同的商品821491e20287b2bccf23f16426d39199.png,则ef920c3deb4d3bed65cfcdaf6be56e68.png应该具有类似的偏好。对于这样的特征,IHGNN也能提取:在embedding aggregation下,76678f27ac2046f9627000c8680057ce.png的信息会同时传递给6ce920fb022ca32a15375aa50ed5a6f9.png,促使3c41e3461d92b61d25efb088e6ec3218.png相似。除此以外,IHGNN还能提取更多的结构信息,实验也表明IHGNN效果优于GraphSRRL.

8. Learning a Fine-Grained Review-based Transformer Model for Personalized Product Search (SIGIR 2021)

    作者提出,现有的大多数个性化商品搜索模型都遵循着在语义空间表示和匹配用户购买意图以及商品的范式。在这种情况下,商品的得分仅能通过用户和商品级别的相似性来解释,而无法考虑细粒度的匹配,比如用户和商品的评论间的关系。因此,这些模型无法充分捕捉用户评论中体现的用户偏好以及商品评论中体现的商品特征之间的匹配关系。除此以外,尽管之前的一些工作尝试构建动态的用户表示,但是商品的表示一般都是静态的。在这种情况下,所有相关的商品评论都被认为同等重要,但这在面对不同的用户时显然是不合理的。

    为此,作者提出了review-based transformer model(RTM)来解决上述问题。通过Transformer结构来编码查询,用户评论,商品评论组成的序列。此时RTM可以在用户和商品之间进行评论级别的匹配,而一个商品取得高分就可以通过一些有用的评论受到更高的关注来解释。

    具体来说,令 q 表示用户提交的查询,c836c7d11542449e42d20a7dc1a6641f.pngf5f970442f91587f1d501c99592cbbb2.png 分别表示d0a19bfa95d3b27cbf5af1593e70d5e5.png的评论。将序列e6742b125d8d2639634a3bf7bc731765.png输入到2095f9429f2ab7521374c2bf03f545a3.png层Transformer编码器中,使得查询,用户的评论,商品的评论可以互相交互。

5b7cf93b0366541de53a2353b7e27a03.png

    最终,RTM使用 e0d5b654f1b12a32eac25d8e37f72a49.png在最后一层的输出向量76cd01d4c49df84e15d85e48b0a4d389.png来计算商品773dd24224e38bd924ee5438667e6bdb.png的得分。也就是说,给定用户7c181b196ed1c54212fc89eaae0cfdac.png和查询 f21b9c4ba19e2c79e7596c6ff1aba21c.png,商品 a2d37d92f9fd5cf4a8d1ff6814f268f6.png最终的得分为65d83b859c5e49f7754f6cb51ee7367f.png,其中 93ce5d6d4fb8a8ad1376439f02025e84.png

    与ZAM类似,RTM也可以做到从无个性化到完全由个性化影响的动态调整。但与ZAM仅考虑用户与查询之间的交互来决定个性化程度不同的是,RTM同时考虑了商品的影响。这使得即便针对相同的用户和查询,购买不同的商品也将导致不同程度的个性化。

小结

    在商品搜索模型中,个性化的引入无疑提升了搜索性能。通过学习用户的兴趣爱好,为每个用户提供不同的搜索结果,不仅改善了用户的搜索体验,也会为电商公司提供更高的收益。从以上文章可以看出,关于个性化商品搜索的研究方向多种多样,如怎样建模用户偏好,怎样利用交互中的结构信息,怎样利用用户反馈信息等等,都值得更深一步的思考与探索。

    希望本文能够帮助读者了解个性化商品搜索的相关概念与模型。欢迎大家批评与讨论。

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

6160aa4cd8650b5266ef56b2075c8ee1.png

参考文献

[1] Learning a Hierarchical Embedding Model for Personalized Product Search. SIGIR 2017

[2] Attentive Long Short-Term Preference Modeling for Personalized Product Search. TOIS 2019

[3] A Zero Attention Model for Personalized Product Search. CIKM 2019

[4] A Transformer-based Embedding Model for Personalized Product Search. SIGIR 2020

[5] Explainable Product Search with a Dynamic Relation Embedding Model. TOIS 2019

[6] Structural Relationship Representation Learning with Graph Embedding for Personalized Product Search. CIKM 2020

[7] IHGNN: Interactive Hypergraph Neural Network for Personalized Product Search. WWW 2022

[8] Learning a Fine-Grained Review-based Transformer Model for Personalized Product Search. SIGIR 2021

END -

eca55f6ab2c46c750ff79edfb8b6ac26.png

edc90ea9022a9af3cb89bd61adb718bc.png

万物皆可Graph |  当信息检索遇上图神经网络

2022-02-17

ea5b1732965e931841e2848d4922210e.png

我与NLP这七年

2022-02-12

7a886eb795f28a56fa69ac46ab7e1ad5.png

向量检索模型落地:瓶颈及解法!

2022-02-11

bba0bd494395edc195516fb799172ca2.png

Green Deep Learning:NLP在大模型之外的另一种思路!

2022-01-22

cb5c16101c0ec4cdc9f2b14a2871fc57.png

2ec228eb68eb709ba727fbc7506e48a2.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值