在推荐系统中衡量社交朋友兴趣相似度

在推荐系统中衡量社交朋友兴趣相似度

摘要

由于过去几年在线社交网络服务的普及,社交推荐系统已成为一个新兴的研究课题。本文旨在为社会推荐问题的研究提供基础支持,对社交好友关系与用户兴趣相似之间的相关性进行深入分析。当评估兴趣相似性而不区分用户具有的不同朋友时,我们惊奇地观察到社交朋友关系通常不能表示用户兴趣相似性。用户在所有朋友上的平均相似度甚至与其他随机选择的用户的平均相似度相关。然而,当使用更精细的粒度度量兴趣相似度时,我们发现用户和他/她的朋友之间的相似度实际上受朋友网络中的网络结构控制。影响兴趣相似性的因素包括子图拓扑结构,连接成分,共同朋友的数量等。我们认为,我们的分析为社交推荐研究提供了实质性影响,并将有利于推荐系统和其他社交应用的持续研究。

关键词:朋友,兴趣相似性,推荐系统,连通分量,子图拓扑

引言

由于其商业价值以及研究方面的挑战,推荐系统在过去的十年中已经在工业界和学术界广泛研究。 推荐技术目前为许多成功的在线服务提供支持,包括但不限于亚马逊的产品推荐,Netflix的电影推荐,Hulu的视频推荐,潘多拉音乐推荐等。

最近,社交网络服务的蓬勃发展促进了对信感知推荐系统的研究[5,6,9,11,12]。无论这些方法采用何种技术,这些工作背后的基本假设是“物以类聚,人以群分”。 为了评估信任与用户兴趣相似度之间的关系,Ziegler[20]研究了在两个现实世界数据集中观察到的数百个用户,并得出结论,他们的实验结果显示在推荐系统中,人际信任与用户兴趣相似之间是正相关的。

虽然以前的初步工作表明信任与用户兴趣相似之间存在正相关关系,但许多研究问题仍然存在,需要进一步探讨。

首先,测量信任关系与用户兴趣相似度之间关系的先前工作在相对较粗的水平上进行。 在文献[20]中,作者仅将受信任的同伴相似度与整体同伴相似度进行了比较。实际上,我们可以进一步研究许多其他有趣的方向:社会同伴相似度与随机同伴相似度如何比较? 有多少社交同伴会击中一个用户的Top-N类似用户列表? 一个用户的社交网络中的社交同伴有多种多样?

其次,“信任”只是多种社会关系中的一种。 像Epinions这样的在线推荐系统只有少数几种实现了信任机制。 相反,许多流行的推荐系统是为在线用户设计的,可以与现实生活中的朋友进行互动,如NetflixFlixsterDoubanFoursquare等。因此研究社交友谊和用户兴趣相似之间的相关性是非常重要的。

最后,“信任关系”在很多方面与“社交友谊”有很大不同。如[10]中所述,在具有“信任”实现的推荐系统中,当用户u喜欢其他用户v发布的评论或意见时,用户u可以将用户v添加到他/她的信任列表中。这种信任生成过程是一项单方面的行为,不需要用户v来确认关系。这也表明用户u在现实生活中甚至不需要知道用户v。然而,“社交友谊”是指我们周围的合作关系和相互关系,比如同学,邻居,亲戚或同事等等。从这两种社会关系的定义中,我们可以看到,在信任感知推荐系统,人们可以假设用户可能与他们信任的其他用户有类似的喜好[20]。然而,这种假设可能不会在基于朋友的推荐系统中进行,因为一个用户的朋友的喜好可能差异很大。有些朋友可能会与这位用户分享相似的喜好,而其他朋友可能会有完全不同的喜好。因此,我们可以探索的一些自然的研究问题是:朋友关系是否与用户兴趣相似性的成正相关?如果不是,我们能否简单地声称友谊与兴趣相似性根本不相关?

为了解决上述所有研究问题,我们对从现实世界推荐系统(即豆瓣朋友社区和Foursquare朋友社区)提取的两个大型朋友社区进行了深入实验。 Douban数据集由用户项目评分矩阵以及相关的朋友网络组成,而Foursquare数据集由用户位置签到矩阵和相关的朋友网络组成。 为了展示朋友社区和信任社区之间的差异,我们在第4节中还对Epinions信任社区进行了比较分析。 此Epinions数据集还包含用户项目评分矩阵以及相关的信任网络。

我们观察了这三个社区发生的一系列有趣的现象。主要研究结果总结如下。

评估兴趣相似性而不区分用户具有的不同社交同伴时,我们注意到这些社区之间的不同模式。

我们观察到社会信任与用户兴趣相似之间的强烈正相关 一般而言,用户与他/她的信任伙伴相比与社区中随机抽样的用户更相似。 这个结论也与齐格勒之前在相对较小的数据集上进行的实验相吻合。

•对于社交朋友社区,我们发现社交朋友关系通常不能代表推荐系统中用户兴趣相似 一个有趣的现象是,用户和他/她的朋友之间的平均相似度甚至与该用户与社区中随机选择的用户的平均相似度相关。

•我们还注意到,在社交朋友社区中,用户与他/她的朋友的相似之处非常多样化。 这表明有些朋友与这个用户非常相似,而其他一些朋友与他/她不一样。

为了检测哪些朋友与目标用户更相似,我们通过进一步探索用户朋友网络中的网络结构和属性来衡量兴趣相似性 一些主要观察结果是:

•两个用户共享的共同朋友的数量是可以控制这两个用户之间的相似度的一个因素。 假设用户uf是用户ui拥有的朋友之一,那么如果在这两个用户之间观察到更多的共享朋友,则uiuf更加相似。 在数量上,在我们的Foursquare数据集中,共享32位以上的朋友的两个用户之间的平均相似度是没有朋友的两个用户之间的平均相似度的1.54倍。

•用户朋友网络中的子图拓扑是控制相似性的另一个强有力的指标。 对于一个用户的Foursquare好友网络中的五节点子图,该用户与五个全连接节点的平均相似度为该用户与五个完全断开节点之间的平均相似度的1.60倍。

•我们还注意到,连接分量的数量,每个分量的大小以及每个分量的密度也可用于识别这些用户与他/她的朋友之间的相似度。

我们相信,本文的分析和研究结果为社会推荐研究提供了深刻的见解,也有利于推荐系统设计人员开发一个可以充分利用社交信息的更有效的平台。

本文的其余部分安排如下。 2节介绍了文献中的几项相关工作。 第3节给出了本文中使用的数据集的详细描述和统计。 第4部分显示与Epinions信任网络的比较分析,第5部分基于朋友网络结构和属性进行实验。 第6节总结了对推荐系统和其他社交应用程序的影响,接下来是第7节的结论和未来工作。

2. 相关工作

在本节中,我们将回顾与我们的工作相关的两个研究方向:社交推荐系统中的用户兴趣分析和其他社交应用中的用户兴趣分析。

2.1社交推荐系统中的用户兴趣分析

随着在线社交网络服务的激增,社交推荐系统的研究越来越普及。 提出了许多社交增强推荐算法来提高传统方法的推荐质量。为了产生更好的推荐结果,  无论采用什么技术,这些工作中采用的基本假设是用户的社会关系能够正面反映用户的兴趣相似性。

为了支持上述假设,在[20]中,Ziegler等人 对两个基于信任的推荐系统中观察到的数百名用户进行了初步分析。 他们认为,为了提供有意义的结果,信任必须在一定程度上反映用户的相似性,因为从具有相似喜好的志趣相投的人那里得到的建议才有意义 他们的分析得出结论认为,他们发现了推荐系统中信任与用户兴趣相似之间正相关的强烈指示 但是,正如第1节所述,还有许多研究问题需要进一步研究。 在本文中,我们对推荐系统中社交好友关系与用户兴趣相似之间的相关性进行了深入调查。

2.2其他社交应用中的用户兴趣分析

尽管推荐系统中用户兴趣分析的研究是初步的,并受到公共数据集可用性的限制,但其他社交应用中用户兴趣分析的研究[1,7,8,15,17,18]相对活跃。

[8]中,Leskovec et al。 在微软Messenger社交网络上研究了1.8亿用户,发现当人们有相似的年龄、语言和位置时,他们往往会更多地交流。通过将微软Messenger的用户与微软搜索引擎的用户连接起来,Singla等人发现,谁与谁在即时消息网络上交谈,以及他们搜索的内容之间的关系非常密切。分析显示,与对方聊天的人更有可能分享他们的兴趣(他们的网络搜索是相同的或相似的)。他们交谈的时间越长,关系就越牢固。

[7]中,Lee等人 研究了协同标签系统C-teULike,并得出结论认为,社交网络连接的用户在所有探索级别上(项目,元数据,标签)的相似度显着高于非相关用户。 在[17,18]中,Zhen等人在一个最大的全球组织中,研究了从朋友那里推断用户兴趣的质量。 他们表明,当用户贡献的内容大相径庭,内容类型多样化时,推断质量存在很大差异。为了让社交应用在何时利用推断的用户兴趣做出明智的决策,他们还进一步调查了相关因素,并提出了基于各种网络特征来预测推理质量的方法。

本文不同于其他社交应用的工作,我们关注推荐系统领域,并通过探索各种可能影响相关性的因素来评估社交好友关系与用户兴趣相似之间的相关性。

3数据集描述

我们分析来自在线社交应用的数据,其中用户不仅拥有社交网络信息,还拥有用户偏好数据,如用户项目评分数据或用户位置签到数据。

3.1社会关系的定义

理解我们在本文中研究的社会关系将有助于我们更好地解释实验结果。 因此,在我们描述数据集之前,我们首先简要介绍本文研究的社会关系的差异。

为了说明社交朋友网络与社交信任网络的差异,我们还将第4部分的社会信任网络分析作为基线网络。 通常,在具有信任机制的网站上,如果用户u通过用户v的评级、公众评论、评论等或用户发现用户v与他/她具有相似喜好,或者用户u同意用户v发表的大多数意见,则用户u将用户v添加到他/她的信任列表中。这种关系是单方面的,这意味着用户u信任用户v并不一定表明用户v也信任用户u

3.2豆瓣朋友数据集

我们选择的第一个数据源是Douban1数据集。 豆瓣于200536日推出,是一家中文Web 2.0网站,为电影,书籍和音乐提供用户评分,评论和推荐服务。 它也是最大的在线图书,电影和音乐数据库,也是中国最大的在线社区之一。 用户可以将5级积分(从15)分配给电影,书籍和音乐。 它还提供类似Facebook的社交网络服务,它允许用户通过他们的电子邮件帐户找到他们的朋友2这意味着豆瓣上的大多数朋友实际上都是在线下彼此认识的。 因此,豆瓣是我们研究衡量社交朋友和用户兴趣相似度之间相关性的理想来源。

2 At the time when we were crawling the Douban dataset, Douban only allowed Facebook-like relationship building approach. Now Douban also supports Twitter-like following mechanism.

豆瓣上的用户可以加入不同的有趣组。 在搜寻豆瓣网站(2009年11月)时,“电影”子类别下有700多组。 我们抓取了这些组中的所有用户,并将这些用户用作种子,以进一步抓取他们的电影评级的社交网络。 最终,我们获得了129,490个独立用户和58,541个独立电影,并获得了16830389个电影评级。 对于社交朋友网络,用户之间的朋友链接总数为1,692,952。 豆瓣用户项目评分矩阵和社交好友网络的统计值分别列于表1和表2。

1:豆瓣朋友数据集用户 - 项目评分矩阵统计

 

2:豆瓣朋友数据集的社交朋友网统计

 

 

3.3 Foursquare好友数据集

我们在本文中使用的第二个数据集是Foursquare数据集。 Foursquare是针对移动设备的基于位置的社交网络服务。 用户可以使用Foursquare移动应用程序在当地签到 用户还可以使用电子邮件帐户或手机号码添加/邀请朋友。 友谊建立过程需要用户的共同同意 因此,来自Foursquare的数据是我们研究目的的另一个来源。

我们获得的这个Foursquare数据集包含16,748位用户,他们共检查了42,460个独特位置。 请注意,在此数据集中,我们没有评分数据,因为签入行为是二元操作。 但是,许多用户会多次登录示例位置,这也表示此用户喜欢某个位置的次数。 因此,在汇总的用户位置登记矩阵中,每个条目是表示用户在一个位置上的登记频率的整数。 此用户位置签到矩阵中的条目总数为450,114。 至于社交朋友网络,在这个网络中共有231,148个友谊。 用户位置签到矩阵和用户社交好友网络的其他统计值分别总结在表3和表4中。

3:四方好友数据集的用户位置登记矩阵统计

 

4Foursquare好友数据集的社交朋友网络统计

 

3.4 Epinions信任数据集

我们使用的第三个数据集是Epinions4信任数据集。 Epinions.com是一个知名的知识共享网站和评论网站,成立于1999年。在线用户需要注册并开始提交自己的个人意见,如产品,公司,电影或其他用户发布的评论。用户还可以指定产品或评论从1到5的积分等级(5表示“喜欢”,而1表示“不喜欢”)。这些评级和评论将影响未来的顾客,当他们决定一个产品是值得购买还是一部电影值得关注时。 Epinions的每个成员都一个“信任”列表,显示用户之间的信任关系网络。该网络被称为“信任网络”,Epinions使用该网络重新排序产品评论,以便用户首先看到他们信任的用户的评论。因此,Epinions是我们分析评估信任与用户兴趣相似度之间关系的理想来源

用户的信任列表以及此用户的评分信息可供所有在线用户公开使用。 因此,我们很容易分析Epinions的数据。 我们实验中使用的数据集是通过2009年1月爬行Epinions.com网站收集的。它包含51,670个用户,他们对83,509个不同的项目进行了评分。 总评分数为631,064。 表5总结了Epinions用户 - 项目评分矩阵的其他统计数据。对于用户社交信任网络,已发布信任语句的总数为511,799。 表6总结了该数据来源的统计数据。

5Epinions信任数据集的用户项目评级矩阵统计

 

6Epinions Trust 数据集的社交信任网络统计

 

4与信任网络的比较分析

在本节中,我们将详细分析评估社交关系与用户兴趣相似之间的相关性,而不区分用户拥有的不同社交同伴。

4.1相似性的定义

由于每个用户的兴趣可以由该用户的评分/签到表示,因此我们可以在文献中借鉴几种相似度计算函数。

在本节中,我们利用Pearson相关系数(PCC)[14]作为评估用户i和用户j之间相似度的度量,其定义为:

 

其中Ii)表示用户i评价/访问的项目/位置的列表,p属于用户i和用户j都评价或访问的项目或位置的子集,rip是用户i给予项目p的评分或 在位置p用户i 登录的次数,以及代表用户i的平均分数。

从上面的相似度定义中,我们可以看到sij-1变到1,而更大的值意味着用户ij更加相似。 我们使用映射函数fx=x + 1/ 2来将PCC相似度的范围限制为[0,1]

我们还测试了许多其他的标准相似性度量,包括矢量空间相似性(VSS[3]等。 对于所有这些人,我们在分析中都观察到类似的趋势,并且结果没有定性差异。 因此,我们只使用PCC相似度函数报告结果。

在下面的小节中,我们将对三个不同的数据集进行详细分析

4.2与随机用户的比较

我们首先进行的分析是了解研究问题:社交同伴相似度与随机同伴相似度如何比较? 更具体地说,我们进行如下实验:

1对于每个用户i,我们计算平均社交同伴相似度

 

其中Si)表示用户i的社交同伴的列表。Sik:用户i和用户k之间相似度,k是用户i的所有社交同伴(朋友)

2我们也计算平均随机同伴相似度

 

其中Ri)表示用户i的随机选择的伙伴的列表,其与Si)具有相同的大小,并且Ri并Si=

3然后,我们详细比较每个用户的社交相似度和随机相似度之间的值。

将社交相似度与随机相似度进行比较的动机是,如果社交同伴与用户兴趣相似度之间存在强正相关,那么我们预计社会相似度的值远高于随机相似度的值,反之亦然。

我们计算三个数据集中每个用户的社会相似度和随机相似度。为了减少噪音,我们要求每个用户至少需要4个声称的社交同伴关系。对于社交同伴数量少于四人的用户,我们不会将其纳入此分析中。 此外,我们多次运行随机选择,并观察到类似的模式。 图1分别绘制了三个不同数据集的社会相似度和随机相似度之间的相关性。 图中的每个数据点表示具有指定社交相似性值的x轴和指示相关的随机相似性值的y轴的用户。 图2显示了图1中每个子图的对应热图。颜色密度显示了用户的强度。从这两个数字来看,我们有以下意见:

1. 首先,在Epinions信任共同体中,我们注意到图1a)和图2a)中的图显示了对右下区域的强烈偏向,这表明社会信任信息高 与用户兴趣相似度相关。 我们将量化本节后面的社会相似度和随机相似度之间的相关性。

2. 其次,在豆瓣朋友社区,我们获得完全不同的趋势。从图1b)和图2b)中,我们实际上找不到证据表明社交朋友信息与用户兴趣相似度相关。我们注意到社交相似度与随机相似度甚至高度相关,这表明:就用户兴趣相似度而言,用户的朋友几乎等同于从用户空间随机抽取的其他用户列表。如果我们将这个结论与第3.1节中描述的社交朋友网络的形成过程联系起来,我们会发现这个结论实际上是非常合理和具有代表性的。如前所述,这个豆瓣的朋友社交网络非常接近现实世界的社交朋友网络。想象一下真实世界的情景,实际上只有极少数朋友与你有类似的品味。在线社交网络中这个问题更加严重。例如,在Facebook上,一个典型的用户有好几百个朋友,但只有那些与这个用户高度互动的朋友可能会与这个用户分享相似的品味。

3. 第三,在Foursquare朋友社区中,与豆瓣朋友社区类似,在1c)和图2c)中我们也无法找到明显的证据表明社交朋友信息与用户兴趣相似度相关。

 

为了量化社会关系与用户兴趣相似度之间的相关性,我们希望衡量每个社区中社交相似度大于其随机相似度的用户比例(即si-ri> 0)。 我们看到两个社交朋友社区和社交信任社区存在巨大差异。 总体而言,在Epinions信任数据集中,有82.9%的用户的社交相似度大于他们的随机相似度。 然而,这个数字在Douban朋友和Foursquare朋友数据集中分别下降到45.1%和52.8%。 从这些数字中,我们再次观察到社交信任和兴趣相似之间的强相关性,而我们不能在社交朋友和兴趣相似之间得出任何结论。

4.3 Top-N分析

我们执行的第二个分析是查看用户的社交同伴在这三个数据集中会击中此用户的Top-N类似邻居的数量。在理想情况下,如果我们发现大多数用户的Top-N类似邻居来自该用户的社交网络,那么我们可以得出用户的社交关系与用户的兴趣相似度高度相关的结论。

我们在N处定义用户i的精度如下:

 

其中TNi)表示用户iTop-N最相似的用户的列表,而Si)指定用户i的社交伙伴的列表。 那么每个数据集的N处的平均精度可以定义为:


其中m是每个数据集中的用户数量

3显示了三个数据集上带误差条的AP @ N分析。从结果中,我们可以看到,社会信任社区的AP @N最高,其分数远高于两个社交朋友社区。 这再次表明社交信任信息与用户兴趣相似度比社交朋友信息更相关。

 

3Top-N命中精度(误差线代表95%的置信区间)

在这个Top-N分析中,有人可能会争辩说,对这三个数据集进行的实验是不公平的,因为这三个社区的用户数量和社交同行的平均数量是不同的。实际上,我们通过考虑平均社交同伴的数量以及不同社区的用户规模来进行分析以规范精确度。 最终,我们发现这些曲线与图3中的曲线非常相似,因此我们在这里没有提供细节。

4.4一致性分析

我们感兴趣的第三个分析是解决以下问题:

一个用户的社会同伴有多一致?

用户和他/她的社交同伴之间的相似性是否有很大差异?

这三个社区之间有不同的模式吗?

为了回答上述问题,我们基于以下两个度量来评估一致性,即平均距离(MAD)和均方根距离(RMSD)。 用户iMADRMSD的定义是:

 

其中sik是在方程1中定义的用户i和用户k之间的相似度,si是方程2中定义的用户i的平均社交相似度,而Si)表示用户i的社交同伴的列表。

从定义中,我们可以看到,我们实际上是在测量用户的社交相似度sik会偏离他/她的平均社交相似度si的程度。如果用户的社交同伴相似度都落入小范围内,那么他/她的MADRMSD将会相对较小,这表明该用户的社交同伴与该用户非常一致。如果我们观察到一个大的MADRMSD值,那么这个用户的社交同伴是相对多样化的。图4a)和图4b)分别显示了MADRMSD的分析结果。 为了减少噪音,我们只考虑那些至少有四种社会关系的用户。

 

我们注意到三个数据集的曲线说明了MADRMSD数据中的不同模式。这些数字显示,Epinions信任社区中的大部分用户具有相对较小的MADRMSD值,这意味着Epinions信任社区中用户的社交同伴相对更加一致。Douban朋友和Foursquare朋友社区中的MADRMSD值分别为相对较大,这表明这两个社区的用户的社交同伴更加多样化。我们还注意到,很多用户在Foursquare朋友社区中拥有非常大的MADRMSD值。这种现象表明,这些用户的社交同伴是相当多样化的,相对而言,一些社交同伴与这些用户非常不相似,但其他社交同伴与这些用户非常相似。在下一节中,我们将重点讨论如何利用丰富的朋友网络结构和属性信息来检测那些与目标用户非常相似的用户。

5.基于网络结构和属性的分析

在第4节中,我们进行的所有实验都表明,朋友关系与兴趣相似之间没有明显的相关性。 然而,我们也得出结论,用户的朋友的喜好是非常多样化的,因为一些朋友可能与目标用户非常相似,而另一些朋友则完全相反。

在本节中,为了检测哪些朋友与目标用户有相似的喜好,我们通过利用从朋友网络获得的丰富的网络结构和属性信息进行了多个深度实验,其中包括在第5.1节中提出的公共好友分析,第5.2节中详述的子图拓扑实验以及第5.3节中说明的连通分量分析。

我们将社会信任网络从本节中排除,因为我们已经证实信任与兴趣相似度呈正相关,本文的重点是研究好友信息与用户兴趣相似度之间的相关性。

5.1共同朋友的数量

我们在本节中进行的第一个实验是评估两个朋友之间的共同朋友的数量如何影响这两个朋友之间的兴趣相似度。

更具体地说,对于数据集中的任何朋友对,我们首先使用公式1中提到的相似度函数计算此对之间的相似度。然后我们计算这对之间共享朋友的数量。 DoubanFoursquare数据集的汇总结果如图5所示。在x轴中,我们将共同朋友的数量分为8类,其中“(4,8)”表示共同朋友的数量大于 4但小于或等于8.图中的误差线代表95%的置信区间,而且,对于其他所有的图,我们在下面的小节中给出,误差线都是95%置信区间。还要注意一些错误可能非常小,因此相应的误差线几乎不可见。

 

从图5中,我们可以看到两个数据集显示,如果两个朋友之间有更多的共享朋友,则两个朋友更相似。 在Foursquare数据中,共享32位以上朋友的两个用户之间的平均相似度甚至是不分享朋友的两个用户之间平均相似度的1.54倍。 这种观察的一个解释是,在现实生活中,如果两个用户分享大量的朋友,那么很可能这两个用户具有相似的年龄,一起参加了同一个高中/大学,或者在类似的领域/主题上工作, 所有这些背景信息已经暗示这两个用户可能具有相似的喜好。

此外,可以观察到用户和他/她的朋友之间的兴趣相似度随着Foursquare数据集的共同朋友的数量而急剧增加,而在Douban数据集中变化较不明显。 这一现象实际上非常合理,因为如第3节所示,不同的数据集有不同的统计数据。 在两个不同的数据集中,有很多因素会影响相似度的范围,包括平均项目数量,评级模式等。尽管如此,我们仍然可以得出共同朋友的数量是控制用户兴趣相似度的强烈信号的结论。

5.2子图拓扑

5.1节中的共同朋友分析每次测量用户与他/她的一个朋友之间的相似度。 在这一部分,由于研究社会传染问题[16]的工作,我们也有兴趣评估用户和他/她朋友的子集之间的相似性。

 

6显示了我们如何构建四节点朋友子图的两个示例。 在每个示例中,中间节点代表目标用户,而此用户周围的所有其他节点都是此用户的好友。 突出显示的四个节点以及这四个节点之间的边形成一个子图。 图6显示了两种不同的子图拓扑模式:左侧子图有一个边和三个分量,而右侧有两个边和两个分量。

我们在此研究的基本问题如下:目标用户和子图节点之间的平均相似度如何取决于来自他/她的朋友网络的不同子图拓扑模式?

在本文中,我们分别对两节点,三节点,四节点和五节点子图进行分析。 在两节点子图中共有2种不同的拓扑模式,三节点子图中有4种,四节点子图中有11种,五节点子图中有32种。

当为用户构造所有的子图模式时,由于以下原因,列举所有可能的子图是不可行的:(1)当用户有很多朋友时,枚举所有可能的n节点子图是非常耗时的。 (2)如果一个用户拥有大量的朋友,那么为这个单个用户生成的庞大数量的子图可能会主宰整体分配,这将导致不公平的分析。 因此,不失一般性,对于每个用户,我们随机抽样一定数量的子图。 在本文中,我们将每个用户的样本数量设置为50,000

这种分析的趋势分别在图7,图8和图9中给出。


 

7和图8总结了DoubanFoursquare数据集中双节点,三节点和四节点拓扑模式的结果。 从这两幅图中我们可以看出,相似性在很大程度上受每个拓扑图案中边缘数量的控制。 例如,在四节点子图中,当观察到特定拓扑图案中的更多边缘时,用户与这四个节点的平均相似度更接近。

我们还研究了图9中所有五节点拓扑模式条件下的Foursquare数据集上的相似性分析结果。Douban数据集上的结果也与Foursqure数据集具有相似的趋势,因此我们在本文中没有提供由于空间局限性。

在图9中,我们将每个拓扑图案按每个图案中的边缘数量分组。垂直虚线将不同的组分开以便进行更清晰的比较。

从这个数字来看,我们有以下主要观察。

首先,我们从图7和图8观察到的趋势仍然存在。 一般来说,当呈现更多的边缘时,相似度值更高。 用户与五个完全关联的朋友之间的平均相似度是用户与五个完全关联的朋友之间的平均相似度的1.60倍。

其次,我们也注意到,即使在具有相同边数的同一组中,一些模式在相似性方面也比其他模式大。 此外,并非每个具有n个边的组中的每个模式具有比具有较少边的另一个组中的某些模式更大的相似性。 似乎还有一些其他因素可能影响用户兴趣的相似性,除了每个拓扑图案中的边缘数量。

第三,我们看到每个组中有相同边数的有趣现象。 也就是说,在每个组中,具有更多连通分量的模式通常比具有更少连通分量的模式具有更大的相似性。 这一观察指出,连通分量可能是影响用户兴趣相似性的另一个预测因子。

5.3连接分量

在本节中,根据第5.2节的动机,我们研究了连通分量对测量社交朋友兴趣相似度的影响。

10的左侧部分演示了连通分量的概念,而此图的右侧部分显示了大于或等于3的连通分量。

 

我们进行的第一个实验是评估用户朋友网络中连接分量的数量如何改变此用户与其所有朋友之间的平均相似度,如图11所示。我们将连接分量的数量分为9类。 如果一个用户的朋友网络有31个连接的分量,那么这个用户和他/她的所有朋友之间的平均相似度将被分组到“(1632]”类别中。从这个图中,我们可以看到,简单地计算连接分量的数量会导致预测用户兴趣相似性的混乱看法。 在这两个数据集中,开始时,连接分量的数量正面影响用户兴趣相似度。 但是,当这个数字超过某个阈值时,连接分量的数量开始对用户兴趣相似性产生负面影响。

 

从以上分析中,我们得出结论:仅仅使用连接分量的数量可能不是一个非常有效的预测器。 因此,在第5.2节和本节中我们获得的观察结果的激励下,我们用更精细的粒度来处理连接的分量。 也就是说,我们考虑每个连接分量的边缘密度。

 

 

对于用户朋友网络中的每个连接分量,我们首先计算此用户与此连接分量中所有节点之间的平均相似度。 然后我们将这个平均相似度与这个连通分量的边缘密度相关联。 DoubanFoursquare数据集的汇总结果分别如图12a)和图12b)所示。

从这两个数字来看,如果我们简单地考虑大小为k或更大的分量的数量,我们可以看到小的k值(如大小3)是不够的; 但是当k增加以使得对组分的选择足够收敛时(例如,当我们只计算大小为5或更大的组分时),我们可以看到这个度量成为评估用户兴趣相似度的显着的积极预测因子。

6.影响

从第4节和第5节,我们获得了许多有趣的观察结果。 我们从这些观察中学到的意义和知识可以被依赖于用户兴趣模型的各种应用所利用。

6.1对推荐系统的影响

在推荐系统中,我们确认信任信息是一种非常理想的来源,可以根据明确的评分相似性来分析用户的兴趣。 此外,我们的分析为那些基于信任的协作过滤方法[6,9]提供了强有力的支持,并解释了为什么利用社交信任信息可以提高推荐预测的准确性。

在社交朋友信息方面,当对待每个朋友的用户平等时,我们无法找到社交朋友与用户兴趣相似度之间的任何相关性。 然而,我们得出结论,使用网络结构和属性作为不同的背景,我们可以找到许多可以正确预测用户兴趣相似度的因素。 这一观察结果指出,在设计计算社会推荐技术时,我们在本文中分析的所有背景都可以作为特征使用,或作为动机更好地模拟社会推荐问题。 这些发现还可以让用户体验研究人员以及用户界面设计人员利用社交背景信息设计更好的机制来解释推荐结果。

6.2对其他应用的影响

社交网络信息在其他许多应用中扮演着重要的角色。 最自然和最重要的应用可能是社交搜索问题。 最近,GoogleBing都发布了与社交搜索相关的有趣功能。 基本的想法是允许来自用户社交网络的内容呈现给用户的搜索结果或社交边栏。 然而,根据我们的调查,用户可能不会与大多数朋友分享相似的品味,因此他们可能不会对向他们呈现的社交搜索结果感兴趣。在某些情况下,用户可能会发现推荐的社交结果令人讨厌。。因此,为了改善用户体验,识别谁是给定用户的“最亲密的”朋友是非常关键的根据本文提出的所有研究结果,我们可以通过查看我们开发的不同社会背景轻松地帮助解决此问题。

7。 结论和未来的工作

在本文中,我们调查了推荐系统中社交好友与用户兴趣相似度之间的相关性。 我们发现了几种有趣的现象,这些现象在基于社交好友的推荐系统中呈现出不同的模式和趋势。 我们相信我们的发现为社交推荐研究提供了实质性的影响,并将有利于推荐系统和其他社交应用的持续研究。

我们仍然有很多我们未来可以完成的任务。 在本文中,我们只评估直接连接用户之间的用户相似性。 我们还可以进一步分析多跳连接的用户之间的相似性。 我们相信这会给我们提供理解社交关系和用户兴趣相似之间关系的另一个观点。

 

 


  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值