spark
植与恋恋
敲代码呀,加油敲代码啊
展开
-
spark学习之pyspark中aggregate()的使用
aggregate():这个函数需要三个zeroValue, seqOp, combOp。zeroValue是初始值,形式是(x,y);seqOp和combOP是两个方法,其中seqOp方法是对每个分区操作,然后combOp对每个分区的结果进行操作。>>> data=[1,2,3,4,5,6,7,8,9]>>> rdd=sc.parallelize(data...原创 2018-11-24 16:17:16 · 2178 阅读 · 0 评论 -
pyspark学习之自定义分区
数据格式:http://bigdata.xiaoniu.com/laoWangbigdata:代表科目laoWang:代表教师,一个老师可以教授不同的科目目的:按照不同的科目,按照访问量教师进行排序。from pyspark import SparkContext,SparkConfconf=SparkConf()sc=SparkContext(conf=conf)def M...原创 2018-12-02 14:17:56 · 3049 阅读 · 0 评论 -
spark高可用集群搭建
下载压缩包,并解压:http://spark.apache.org/downloads.html配置环境vi spark-env.shexport JAVA_HOME=/home/lpp/Desktop/software/jdk1.8.0_73#指定主节点export SPARK_MASTER_HOME=HADOOP01#指定主节点的端口,默认就是7077export SPARK_M...原创 2019-01-15 19:52:14 · 277 阅读 · 0 评论