一.介绍
PageRank算法最初是谷歌推出用来计算网页排名的,简单的说就是,指向这个网页的链接数越多,那么这个网页就越重要。
PageRank算法基于两个假设:
(1) 数量假设:一个网页的入度越大,页面质量越高
(2)质量假设:一个网页的入度来源质量越高,页面质量越高
pagerank早迭代之前都会为每个网页赋予一个相同的初始值,假设A,B,C,D四个网页,B,C,D均指向于A,则迭代一次后A的pagerank值为:PR(A)=PR(B)+PR©+PR(D),若B除指向A外还指向另一个网页,D不指向于A,则PR(A)=PR(B)/2+PR©
计算公式:
PR(A)=(1-d)+d(PR(1)/C(I)+····+PR(n)/C(n))
(1)PR(A) 是页面A的PR值。
(2)PR(Tn)是页面Tn的PR值,在这里,页面Tn是指向A的所有页面中的某个页面。
(3)C(Tn)是页面Tn的出度,也就是Tn指向其他页面的边的个数。
(4)d 为阻尼系数,其意义是,在任意时刻,用户到达某页面后并继续向后浏览的概率,该数值是根据上网者使用浏览器书签的平均频率估算而得,可以设置在0和1之间,通常d=0.85。
二. neo4j-PageRnak
CALL algo.pageRank(label:String, relationship:String, {iterations:20, dampingFactor:0.85, write: true, writeProperty:'pagerank', concurrency:4})
YIELD nodes, iterations, loadMillis, computeMillis, writeMillis, dampingFactor, write, writeProperty
其中label即为neo4j中的label名,relationship为关系名,iterations为迭代次数,默认为20,dampingFactor:阻尼函数,默认为0.85,write:是否将计算结果写为节点属性,writeProperty:权重属性,concurrency:默认cpu数量:4。nodes, 考虑的节点的数目 iterations运行的迭代次数, loadMillis加载数据的毫秒数, computeMillis运算数据的毫秒数, writeMillis写入结果的毫秒数
三.实例
MERGE (home:Page {name:'Home'})
MERGE (about:Page {name:'About'})
MERGE (product:Page {name:'Product'})
MERGE (links:Page {name:'Links'})
MERGE (a:Page {name:'Site A'})
MERGE (b:Page {name:'Site B'})
MERGE (c:Page {name:'Site C'})
MERGE (d:Page {name:'Site D'})
MERGE (home)-[:LINKS {weight: 0.2}]->(about)
MERGE (home)-[:LINKS {weight: 0.2}]->(links)
MERGE (home)-[:LINKS {weight: 0.6}]->(product)
MERGE (about)-[:LINKS {weight: 1.0}]->(home)
MERGE (product)-[:LINKS {weight: 1.0}]->(home)
MERGE (a)-[:LINKS {weight: 1.0}]->(home)
MERGE (b)-[:LINKS {weight: 1.0}]->(home)
MERGE (c)-[:LINKS {weight: 1.0}]->(home)
MERGE (d)-[:LINKS {weight: 1.0}]->(home)
MERGE (links)-[:LINKS {weight: 0.8}]->(home)
MERGE (links)-[:LINKS {weight: 0.05}]->(a)
MERGE (links)-[:LINKS {weight: 0.05}]->(b)
MERGE (links)-[:LINKS {weight: 0.05}]->(c)
MERGE (links)-[:LINKS {weight: 0.05}]->(d)
neo4j 调用PageRank算法:
CALL algo.pageRank.stream('Page', 'LINKS', {iterations:20, dampingFactor:0.85, weightProperty: "weight"
})
YIELD nodeId, score
RETURN algo.getNodeById(nodeId).name AS page,score
ORDER BY score DESC
此处需注意,neo4j官网给的示例中return处写的是asnode,但我在neo4j3.4中尝试报错,故使用getnode成功运行。所得结果如下: