pyspark记录
文章平均质量分 78
杨过悔
这个作者很懒,什么都没留下…
展开
-
SQL例子
Spark Example GOGOGO! 1.创建RDD some_rdd = sc.parallelize([Row(name="John", age=19),Row(name="Smith", age=23),Row(name="Sarah", age=18)])NOTE:我这里使用HIVE结合MYSQL存放数据元,所以先开启2. # 推断SQL DATAFRAM原创 2016-04-17 12:11:28 · 636 阅读 · 0 评论 -
pageRank.py的计算
pyspark GOGOGO! 1.加载数据 sc = SparkContext(appName="PythonPageRank") # Loads in input file. It should be in format of: # URL neighbor URL # URL neighbo原创 2016-04-17 19:31:47 · 558 阅读 · 0 评论 -
Kmean聚类编写
spark Example GOGOGO!kmean算法的聚类算是好理解的依旧画图好理解 from __future__ import print_functionimport sysimport numpy as npfrom pyspark import SparkContextdef closestPoint(p, centers)原创 2016-04-17 20:24:54 · 1099 阅读 · 0 评论