大数据之spark
crystalnsd
坚持不懈,厚积薄发
展开
-
spark 集群启动后,worker 节点worker 进程一段时间后自动结束
1 启动环境:启动hdfs: ./sbin/start-dfs.sh (hadoop 目录)启动spark集群:./sbin/start-all.sh (在spark目录下)检查是否启动:查看各节点折datanode Worker 进程是否启动了2 遇到的问题:各节点中的worker进程启动,spark UI 管理界面显示却只有master 启动,worker 节点都显示,过一会儿,work原创 2017-10-19 00:47:15 · 3602 阅读 · 0 评论 -
spark RDD算子学习(基本命令)
1、进入spark导入包对象from pyspark import SparkContext, SparkConf初始化对象conf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)如果使用的是命令行:对象则已经初始化好了2 使用命令行使用4个c原创 2017-11-06 15:33:21 · 707 阅读 · 0 评论 -
pyspark aggregate函数使用问题(aggregate重写,aggregate中的函数参数限制)
代码 :from pyspark import SparkContext, SparkConffrom functools import reduceconf = SparkConf().setAppName('myFirstAPP').setMaster('local') #连接sparksc = SparkContext(conf = conf) ##生成SparkCont原创 2017-11-07 14:32:53 · 1190 阅读 · 1 评论 -
pyspark RDD 自定义排序(python)
问题:现有数据 data = ((‘crystal’,90,22),(‘crystal1’,100,28),(‘crystal3’,100,22)) 现在对data 进行排序 排序规则: 1 按元组中的第二个字段排序 2 第二个字段相等的话,按第三个字段排序实现思路:定义一个列表元素类,每一个元素都可以实例化成这个类的对象定义类的比较规则,比较规则即为需求规则,然后将R原创 2017-11-09 01:01:24 · 6502 阅读 · 1 评论 -
spark sql 入门操作
aggregate 聚合sc = SparkContext(conf = conf)l1 = [1,2,3,4,5,6,7,8,9]rdd1 = sc.parallelize(l1,2)rdd1.aggregate(8,max,lambda a,b:a+b) ##结果25rdd2 = sc.parallelize(list('abcdefg'),2)rdd2.aggregate('',lam原创 2017-11-07 20:06:42 · 634 阅读 · 0 评论 -
spark-streaming的wordcount程序(python 累加)
代码:'''spark-streaming wordcount程序author:殷雄'''import osimport sysos.environ['SPARK_HOME'] = "/opt/spark-2.2.0-bin-hadoop2.7"sys.path.append("/opt/spark-2.2.0-bin-hadoop2.7/python")try: from p原创 2018-01-04 01:07:31 · 1097 阅读 · 0 评论 -
连接远程linux spark 配置windows 下pycharm开发环境
对不于不习惯在linux 操作的同学,往往想在windows 环境下编辑代码,然后利用远程linux 服务器的spark群集来提交任务,下面提供一个可行的方案1 、设置环境变量vim /etc/profile添加:export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip执行原创 2018-01-03 00:26:29 · 2059 阅读 · 0 评论