pyspark记录
文章平均质量分 78
杨过悔
这个作者很懒,什么都没留下…
展开
-
SQL例子
Spark Example GOGOGO! 1.创建RDD some_rdd = sc.parallelize([Row(name="John", age=19),Row(name="Smith", age=23),Row(name="Sarah", age=18)]) NOTE:我这里使用HIVE结合MYSQL存放数据元,所以先开启 2. # 推断SQL DATAFRAM原创 2016-04-17 12:11:28 · 636 阅读 · 0 评论 -
pageRank.py的计算
pyspark GOGOGO! 1.加载数据 sc = SparkContext(appName="PythonPageRank") # Loads in input file. It should be in format of: # URL neighbor URL # URL neighbo原创 2016-04-17 19:31:47 · 558 阅读 · 0 评论 -
Kmean聚类编写
spark Example GOGOGO! kmean算法的聚类算是好理解的 依旧画图好理解 from __future__ import print_function import sys import numpy as np from pyspark import SparkContext def closestPoint(p, centers)原创 2016-04-17 20:24:54 · 1097 阅读 · 0 评论