pyspark使用记录

原创 2018年04月16日 14:30:28
2016年在清华研究
--》启动python版的spark
直接输入pyspark
--》帮助
pyspark --help
---》执行python实例
spark-submit /usr/local/spark-1.5.2-bin-hadoop2.6/examples/src/main/python/pi.py 
--》数据并行化,创建并行化集合
输入pyspark
>>>data=[1,2,3,4,5]
>>>disData=sc.parallelize(data)
>>>disData.reduce(lambda  a,b:a+b)


--》读取及操作
读取本地数据集
叠加所有文本行的长度
>>>distFile.map(lambda s: len(s)).reduce(lambda a, b: a + b) 


--》pyton版的wordCount
1.建立一个python文件夹
2.vi 一个my.py,输入
import sys
from pyspark import SparkContext
from pyspark import SparkConf
def run():
  print '************'
  print 'hello,zhaodezan'
  conf = SparkConf().setAppName('wordCount')
  sc = SparkContext(conf=conf)
  distFile =  sc.textFile('file:///home/zhaodz/sbt/wordCount/count.txt')
  print 'the number is'
  print  distFile.map(lambda s:len(s)).reduce(lambda a,b:a+b)
  print 'goodBye,zhaodezan'
  print '************'
run()
3.直接在命令行中输入spark-submit my.py即可计算出

[pyspark] pyspark使用记录

以下不定时记录一些pyspark使用过程中的心得、备忘、注意事项等。 reduceByKey: 尽量使用reduceByKey来替代groupByKey, 用reduceByKey时先把数据整理...
  • sf_zhang26
  • sf_zhang26
  • 2017-07-02 17:18:29
  • 293

Android 使用记录访问权限

什么是使用记录访问权限呢?这是在Android5.0(Api level 21)新添加的,通过该权限我们可以查看设备上其它应用使用情况的统计信息等。 如何使用该权限呢? 首先在manifest...
  • qq_24531461
  • qq_24531461
  • 2017-03-28 13:50:27
  • 597

Learning PySpark by Tomasz Drabas

  • 2017年05月19日 16:17
  • 11.5MB
  • 下载

Mac 使用记录

Mac Idea 快捷键
  • lilongjiu
  • lilongjiu
  • 2017-09-20 20:25:24
  • 272

任务管理器中cpu使用记录中显示的窗口个数

曾经 对 windows 任务管理中中的,
  • csdn_xhl868
  • csdn_xhl868
  • 2014-11-15 14:23:26
  • 2961

查看手机使用记录

拨号状态下输入对应型号手机的代码: 华为: ##6130## 小米: ##4636## VIVO: ##4838## 魅族: ##4636## 其它安卓型号: ##4636## ...
  • qq_30656253
  • qq_30656253
  • 2017-12-29 15:41:29
  • 729

清除电脑使用记录工具(超实用)

  • 2008年11月14日 13:42
  • 41KB
  • 下载

PySpark is the Python API for Spark.

  • 2018年03月12日 17:07
  • 11.12MB
  • 下载

用简单命令查看Windows上USB盘使用记录

已经有很多文章描述如何查找注册表里边的USB盘使用记录,但用regedit 查找有所不便,下载相关程序又担心中病毒。本人写了一个简单的命令来做这个查询: 只需要打开命令行窗口(Win + R,输入 ...
  • nullpointer2008
  • nullpointer2008
  • 2017-10-27 16:36:46
  • 1331
收藏助手
不良信息举报
您举报文章:pyspark使用记录
举报原因:
原因补充:

(最多只允许输入30个字)