在社交中找到有影响的人已经成为近几十年来社会研究的焦点,有许多的应用,比如病毒式的的营销或者传播理念和实践。本篇论文就是根据一个人访问某些地点之后,在其影响下其他人也访问了这个地点,来评价这个人是否有影响别人的能力,即影响力。
本论文主要是通过三个因素来逐步推导出最终的影响力公式的:(1)Temporal Dependency时间依赖,即以两人先后访问某地的时间间隔来评价影响力大小。(2)Locational Dependency地点依赖,即根据一个人影响另一个人访问的地点不同,影响力大小不同。(3)Eliminating Coincidences,消除巧合带来的影响力计算上的误差。下面就从这三个方面来具体看它们是如何计算一个人对另一个人的影响力的。
1、Temporal Dependency
假如说一个人A去了某游乐场,在他的影响下,另一个人B也去了这个游乐场。那么我们认为,如果A对B有很大的影响力,那么在A访问这个游乐场之后,B就会迫切的想去访问这个游乐场,因此他们先后访问该游乐场的时间间隔应该比较短。即先后访问同一地点的时间间隔(timedelay)越短,A对B的影响力越大。导出公式:
其中参数τ由实验确定;P0是访问时间间隔为0时代表的影响力,其大小是由他们访问的地点决定的,因此把它写成关于地点l的函数P(l),即3式。当两人多次访问该地点时,将其单次所得影响力累加,得到4式,即完整的时间依赖的影响力计算公式。
2、地点依赖
由于地点本身就具有一定的流行度、知名度,当A影响B到一个流行度高、知名度大的地点时,如北京鸟巢,A只需要有一点点影响力就可以做到;但是当A影响B到一个并不为人所知,并不流行的地方时,如某一家小饭馆,那么A就需要有相当大的影响力才能做到。因此,我们就要把地点因素考虑进来。
那么如何评价一个地点的流行程度呢?我们用这个地点的熵来表示(Location Entropy—Hl)。
用某个用户访问该地点的次数与该地点被所有人访问总次数的比值,记作Pu,l,再基于每个用户,求该地点的熵(exp(Hl))。将其替换4式中的P(l),得到6式;通过对6式在个地点lk上的累加得到7式。即包含了时间和地点依赖的影响力计算公式。
3、消除巧合(Eliminating Coincidences)
我们可以设想这样一种场景:两位老师在某学期的课程在同一间教室,一个上午上课,一个下午上课,因此他们两个就会不断地重复访问该教室。但是这两个老师并不存在相互影响的关系,连续访问该地点仅仅是巧合。但是有上面的公式得到的影响力会很大。因此,我们要尽量消除这种误差,也就需要消除误差。
我们认为,假如两个人不存在影响关系或影响关系比较弱,那么他们共同访问的地点数量少,而如果一个人对另一个人确实有影响力的话,那么A访问过的大多数地点,B都有可能去访问,即共同访问的地点比较多,因此,我们就用两个人访问地点的个数及次数来计算另一个熵,从而消除或者说减弱巧合造成的误差。
其中Pu,v,lk为u对v在地点lk上得到的影响力值,Pu,v为u对v在所有地点得到的总影响力值,得到熵8式。将其代入上面的7式,得到9式为最终的影响力公式。
总结:
本篇论文研究人的影响力,从而找到影响力较大的一些人。论文考虑了较全面的因素,包括访问某一地点间隔的时间因素,影响别人访问地点不同而对应的不同影响力,也就是地点因素,最后考虑在大量数据下,人们访问地点可能因巧合而导致误差。
本篇论文是根据人实际生活中的活动来计算影响力并验证其正确性的,然而数据依然要用到网络上统计得来的数据,这不可避免。但是会不会这样一些人,他们的影响力很大,比如说一个城市的市长,一所学校的校长等,但是大部分人并非这些有影响力的人的好友,也无从获得其动态或访问的地点。因此可能会造成实际得到的影响力偏小。
其次,通过论文中的方法,我们可以得到一个人A对另一个人B的影响力。然而当我们针对的地域范围比较大时,几十万、几百万的人两两之间的影响力计算,耗费也是巨大的。
以上两点是论文目前还不能很好地解决的问题,但也并不影响我们称之为一篇好的论文。