spark
ccddsdsdfsdf
这个作者很懒,什么都没留下…
展开
-
spark初学
前言:spark版本号1.6.21、构造spark JavaRdd对象构造一个JavaRdd<Row>对象JavaRDD<Row> simFundJavaRdd = sc.parallelize( Arrays.asList( RowFactory.create("3103...原创 2018-01-29 10:04:58 · 218 阅读 · 0 评论 -
spark基础
1.基本概念并发变并行 多线程转变多JVM计算 内存计算(内存为主,磁盘为车铺),延迟计算,分阶段计算RDD Resilient Distributed DataSet弹性式分布计算集合 – 可并行计算、可重复计算 * 分区(partition) – 一个基本的计算单元,也是Spark并行计算的基础 * 分区计算函数 – 处理分区的数据,计算逻辑封装 * Partitio...原创 2018-03-12 13:45:15 · 204 阅读 · 0 评论 -
window下spark 环境搭建
1、java 环境变理配置2、scala安装3、spark安装官网下载地址:http://spark.apache.org/downloads.html 打开官网后,直接选择你需要下载的版本下载,解压后 添加环境变量,在path后面添加你的spark解压的路劲到bin文件夹,如:D:\Spark\bin。 添加完环境变量后,可以打开一个cmd运行spark-shell,此运...原创 2018-05-17 20:23:10 · 590 阅读 · 0 评论 -
spark性能优化:操作优化
在大数据开发领域中,spark也成功受欢迎平台之一,我也基于spark开发过一些大数据计算作业,其中的调优过程也记录一下。1、对重复的RDD作缓存处理比如一个RDD多次使用那么应该对这个RDD作缓存处理,避免重复计算。JavaRDD txtRdd = sc.textFile(&amp;quot;spark-biz/src/main/resources/people.txt&amp;quot;);JavaRDD&amp;amp;lt...原创 2018-05-21 15:13:46 · 639 阅读 · 0 评论 -
spark性能优化:参数优化
1、num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。设置这个参数后,Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。 可以按照实际的集群数来设置。注意:...原创 2018-05-21 18:23:53 · 1279 阅读 · 0 评论 -
Spark性能优化-数据倾斜调优
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三...转载 2018-05-21 22:52:27 · 160 阅读 · 0 评论