spark
文章平均质量分 93
purisuit_knowledge
这个作者很懒,什么都没留下…
展开
-
scala起步---安装scala eclipse插件 安装scala简单示例
一、Scala 安装(windows) 可以从 Scala 主页: http://www.scala-lang.org/ 下载 Scala 包下载完成后解压,解压后把bin目录夹地址加到环境变量path中即可。在cmd输入scala -version查看是否安装成功。 二、开发环境(这里选eclipse+scala_eclipse_plugin) 这里需要注意的是,scala的原创 2014-12-08 11:14:41 · 796 阅读 · 1 评论 -
Groupbykey优化
本文可以参考:https://www.jianshu.com/p/09912beb1350https://blog.csdn.net/faan0966/article/details/80513260https://blog.csdn.net/u013514928/article/details/56680825深入理解一下aggregateByKey函数 在计算中,...转载 2018-11-06 19:25:31 · 854 阅读 · 0 评论 -
Spark on YARN cluster & client 模式作业运行全过程分析
原文链接列表如下,致谢:https://www.iteblog.com/archives/1223.htmlhttps://www.iteblog.com/archives/1189.htmlhttps://www.iteblog.com/archives/1191.html 一、Spark:Yarn-Cluster 与 Yarn-Client 的区别与联系 我们都知道...转载 2018-11-20 11:16:59 · 258 阅读 · 0 评论 -
使用 Binlog 和 Canal 从 MySQL 抽取数据
数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据...转载 2019-03-14 17:58:29 · 287 阅读 · 0 评论 -
sparkSQL之调优
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。 木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和...转载 2019-03-07 17:42:02 · 6891 阅读 · 0 评论 -
spark sql 执行流程
本文我们通过源码,来介绍下spark sql的执行流程。 Spark sql是spark内部最核心,也是社区最活跃的组件。Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。列式存储的类RDD(DataSet/DataFrame)数据类型以及对sql语句的支持使它更容易上手,同时,它对数据的抽取、清洗的特性,使它广泛的用于etl,甚至是机器学习领域。因此,sapr...转载 2019-03-12 13:01:05 · 479 阅读 · 0 评论 -
学习spark sql执行计划(一)
学习连接:https://blog.csdn.net/zyzzxycj/article/details/82704713http://www.jasongj.com/spark/rbo/本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark SQL 架构Spark SQL 的整体架构如下图所示从上图可...转载 2019-05-30 19:10:00 · 4016 阅读 · 0 评论 -
spark sql执行计划分析(二)
本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark CBO 背景上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。本文将介绍 CBO,它充...转载 2019-05-30 19:11:16 · 1545 阅读 · 0 评论 -
spark调优
转载自:https://blog.csdn.net/lw_ghy/article/details/52946136spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256Mcluster模式:spark.driver.extraJavaOptions -XX:PermSize=1024M -XX:MaxPerm...转载 2019-06-10 15:50:18 · 356 阅读 · 0 评论 -
Spark性能优化:shuffle调优
转载自:https://blog.csdn.net/u012102306/article/details/51637732shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影...转载 2019-06-28 12:52:24 · 159 阅读 · 0 评论 -
Yarn Scheduler调度策略比较
本文同时参考下列文章,以便深入理解:https://blog.csdn.net/labud/article/details/52043557https://blog.csdn.net/u014589856/article/details/78119504 YARN总共提供了三种调度策略:CapacityScheduler,FIFO Scheduler,FairSchedu...转载 2018-11-06 15:49:20 · 729 阅读 · 0 评论 -
Hive 自定义函数 UDF UDAF UDTF
转载自:https://www.cnblogs.com/mzzcy/p/7119423.html1、UDF:用户定义(普通)函数,只对单行数值产生作用;继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ public class Min ...转载 2018-07-27 18:29:34 · 301 阅读 · 0 评论 -
YARN架构解析
转载:https://blog.csdn.net/xuejingfu1/article/details/52801140MapReduce在YARN上被执行。以下内容涉及的task均是指map tasks或者reduce tasks.YARN的基本思想:是将资源管理和作业的调度/监控相分离,使它们运行在不同的守护进程中。该思想是为了达到:有一个全局的ResourceManager以及每...原创 2018-07-26 15:46:39 · 612 阅读 · 0 评论 -
Spark内核研究
1. Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利转载 2015-11-04 17:38:40 · 475 阅读 · 0 评论 -
Spark入门学习和调优
Spark运行原理自我理解:(1)首先程序有RDD Objects分解为DAG有向无环图(2)提交DAGScheduler,根据shuffer将DAG分解为一组taskset,即stages(3)Taskset提交TaskScheduler,每个taskset在分解为多个task,即一个task就是一个split分区(4)T...原创 2016-04-14 18:07:54 · 5657 阅读 · 0 评论 -
Spark1.6.0源码导入(IDEA)
下载源码导入点击file->open 选择以及下载好并解压过的spark-1.6.0包 点击ok,idea 会自动安装下载文件 完成后 打开源码 内容来自于王家林老师的IMF课程!翻译 2016-05-03 15:22:56 · 983 阅读 · 1 评论 -
spark性能调优:资源优化
转载:在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各...转载 2016-07-08 17:35:14 · 682 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
转载:http://m.blog.csdn.net/article/details?id=51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非转载 2016-07-08 18:08:15 · 567 阅读 · 0 评论 -
spark udf实战
package com.dt.sparksqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types._import org.apache.spark.sql.{Row, SQLConte原创 2016-08-15 11:40:37 · 908 阅读 · 0 评论 -
spark on yarn的那些事
转载自:http://blog.csdn.net/u010657789/article/details/52623107spark on yarn后一个spark application资源使用情况如何?在不考虑动态分配spark资源的情况下: 一个spark application程序资源主要分为两部分:driver + executor,下面分别以client、clus转载 2018-02-02 11:51:07 · 235 阅读 · 0 评论 -
转载:Spark on Yarn遇到的几个问题
1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。2 防火墙 部署好Spark的包和配置文件,on yar...转载 2018-05-03 14:45:29 · 222 阅读 · 0 评论 -
spark参数调优
转载自:https://blog.csdn.net/xwc35047/article/details/71039830http://www.importnew.com/26541.htmlhttps://www.cnblogs.com/dreamfly2016/p/5720526.html(重点)https://www.ibm.com/developerworks/cn/analy...转载 2018-07-25 20:42:14 · 1615 阅读 · 2 评论 -
Spark参数调优
请带着下面的疑问读本博客,如果可以了解,请绕行别处!!!下面4个参数代表什么意思,相互之间什么关系?1.spark.executor.memory2.yarn.scheduler.maximum-allocation-mb3.spark.yarn.executor.memoryOverhead4.spark.executor.extraJavaOptions -XX:MaxDire...原创 2019-07-04 11:22:23 · 1485 阅读 · 0 评论