PageRank算法及MapReduce实现

最新推荐文章于 2024-06-09 12:05:54 发布

班黑炭

最新推荐文章于 2024-06-09 12:05:54 发布

阅读量875

点赞数

分类专栏：数据挖掘十大算法文章标签： mapreduce pagerank

本文链接：https://blog.csdn.net/barryzhou/article/details/78670316

版权

PageRank算法作为谷歌搜索引擎的重要排序方式，采用随机跳转的模拟思想。在大数据时代，利用MapReduce进行实现变得常见。本文详细阐述PageRank算法，并提供在hadoop streaming环境下的实现步骤，包括mapper和reducer的Python脚本以及执行脚本。

摘要由CSDN通过智能技术生成

PageRank算法是谷歌搜索引擎首创网页重要性排序的重要的算法，其原理比较通俗易懂，大数据背景下基于MapReduce的实现更是成为了常态，本文给出PageRank算法详细介绍，以及通过hadoop streaming环境的实现。
1. PageRank算法原理
PageRank的核心思想是模拟一个悠闲的上网者，在网页上随机跳转。
2. 陷阱问题
3. MapReduce实现
3.1 pr_mapper.py

#!/usr/bin/env python
from __future__ import division
import sys
from decimal import *
getcontext().prec = 100

alpha = Decimal(0.8)
#load last round page rank value
pr_values = {}
nodeNums = 0
for line in open('tmp.txt'):
   infos = line.strip().split('\t')
   pr_values[infos[0]] = Decimal(infos[1].strip())
   nodeNums +=

最低0.47元/天解锁文章

班黑炭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PageRank算法及MapReduce实现

PageRank算法是谷歌搜索引擎首创网页重要性排序的重要的算法，其原理比较通俗易懂，大数据背景下基于MapReduce的实现更是成为了常态，本文给出PageRank算法详细介绍，以及通过hadoop streaming环境的实现。一、PageRank算法原理PageRank的核心思想是模拟一个悠闲的上网者，在网页上随机跳转。二、陷阱问题三、MapReduce实现
复制链接

扫一扫

专栏目录