spark调用python算法_PageRank 算法 Spark实现(Scala & Python)

转自: https://plmsmile.github.io/2017/03/13/Spark-PairRDD/

PageRank

PageRank的python版本

#!/usr/bin/env python

# -*- coding: utf-8 -*-

""" PageRank算法

author = PuLiming

运行: bin/spark-submit files/pagerank.py data/mllib/pagerank_data.txt 10

"""

from __future__ import print_function

import re

import sys

from operator import add

from pyspark import SparkConf, SparkContext

def compute_contribs(urls, rank):

""" 给urls计算

Args:

urls: 目标url相邻的urls集合

rank: 目标url的当前rank

Returns:

url: 相邻urls中的一个url

rank: 当前url的新的rank

"""

num_urls = len(urls)

for url in urls:

yield (url, rank / num_urls)

def split_url(url_line):

""" 把一行url切分开来

Args:

url_line: 一行ur

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值