Spark
自律使我放飞自我
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
-
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2016-12-19 16:05:05 · 273 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2016-12-19 16:05:59 · 274 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2016-12-19 16:06:36 · 204 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2016-12-19 16:07:42 · 484 阅读 · 0 评论 -
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数转载 2016-12-30 10:31:10 · 1491 阅读 · 0 评论 -
Spark(二): 内存管理
Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1.5和之前版本里,两者是静态配置的,不支持借用,spark1.6 对内存管理模块进行了优化,通过内存转载 2016-12-30 10:31:42 · 533 阅读 · 0 评论 -
Spark(三): 安装与配置
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。目录:Spark集群安装参数配置测试验证Spark集群安装:在ambari -service 界面选择 “add Service",如图:在弹出界面转载 2016-12-30 10:32:12 · 563 阅读 · 0 评论 -
Spark(四): Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录:SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配置: 拷贝HBase的相关jar包到Spark节点上的$SPA转载 2016-12-30 10:32:35 · 890 阅读 · 0 评论 -
怎么学习Spark
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位;要想成为Spark高手,需要经历一下阶段:第一阶段:熟练地掌握Scala语言Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala...转载 2018-07-12 11:29:37 · 352 阅读 · 0 评论 -
spark2.2.0官方 中文文档 推荐+实验楼spark2.x学习文章转载
spark2.2.0官方 中文文档 推荐spark概述:http://spark.apachecn.org/docs/cn/2.2.0/快速入门:http://spark.apachecn.org/docs/cn/2.2.0/quick-start.htmlSpark Streaming 编程指南:http://spark.apachecn.org/docs/cn/2.2.0/stre...转载 2018-08-07 16:50:14 · 217 阅读 · 0 评论 -
跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测
相关组件版本:JDK1.8.0_171,hadoop-2.7.6,Spark-2.3.0,Scala-2.11.8,Maven-3.5.3,ideaIC-2018.1.4.exe,spark-2.3.0-bin-hadoop2.71.1 JDK1.8.0_171a. 下载JDK,jdk-8u171-windows-x64.exe,安装到目录:D:\setupedsoft\Jav...转载 2018-10-09 16:46:22 · 691 阅读 · 1 评论 -
跟我一起学Spark之——《Spark快速大数据分析》pdf版下载
链接:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取码:ib01国庆第四天,去逛了半天的王府井书店,五层出电梯右边最里面,倒数第三排《数据结构》,找到了一本很不错的书《Spark快速大数据分析》,试读了下,我很喜欢,也很适合我,遂买之。第1章 Spark数据分析导论 1 第2章 Spark下载与入门 7 第3章 RDD编程 21...原创 2018-10-10 11:42:51 · 1925 阅读 · 1 评论 -
IntelliJ IDEA Spark程序本地模式运行消除日志输出INFO信息
方法一:修改log4j.properties.template文件名为log4j.properties,并修改内容:log4j.rootCategory=INFO, console改成log4j.rootCategory=ERROR, console或log4j.rootCategory=WARN, console只显示ERROR级别的日志。方法二:将方法一拷贝出来的文...原创 2018-10-12 09:57:53 · 1749 阅读 · 1 评论 -
跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断
1.规律 如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致,join结果的rdd分区数量也一样,这个时候join api是窄依赖 除此之外的,rdd 的join api是宽依赖2.Join的理解 3.举例A表数据: 1 a 2 b 3 cB表数据: 1 aa1 1 aa2 2...转载 2018-10-16 15:56:27 · 1083 阅读 · 0 评论