![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
蛮子72
信蛮子,得永生
展开
-
HIVE语法基础及实战----干货
目录基础了解Hive使用场景?安装Hive内部介绍启动hive:基础操作Hiverc文件数据类型和文件格式数据定义表操作修改表数据导出Hql查询Join优化模式设计调优开发Hive权限管理Hive运行原理基础了解hive为什么会出现?MapReduce无非就是一套计算模型,但是使用Hadoop的API来实现这种...原创 2019-06-19 08:20:55 · 572 阅读 · 0 评论 -
Spark重点之shuffle全过程
本文原文地址:https://www.cnblogs.com/itboys/p/9201750.html什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, ...转载 2019-06-24 12:34:50 · 134 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/目录摘要为何要处理数据倾斜(Data Skew)什么是数据倾斜数据倾斜的危害数据倾斜是如何造成的如何缓解/消除数据倾斜避免数据源的数据倾斜 ———— 读Kafka避免数据源的数据倾斜 ———— 读文件原理案例总结调整并行度分散同一个Task的不同Ke...转载 2019-06-23 17:50:56 · 166 阅读 · 0 评论 -
kafka读写速度快的原因
KAFKA是分布式发布-订阅消息系统,是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。现在被广泛地应用于构建实时数据管道和流应用的场景中,具有横向扩展,容错,快等优点,并已经运行在众多大中型公司的生产环境中,成功应用于大数据领域,本文分享一下我所了解的KAFKA。【KAFKA高吞吐率性能揭秘】KAFKA的第一个突出特定就是“快”,而且是那...转载 2019-06-25 19:08:07 · 1029 阅读 · 0 评论 -
[spark] Standalone模式下Driver资源调度及Executor分配流程
注:本文接上一篇文章【[spark] standalone集群模式Driver启动过程 】继续说明Driver在启动之后,如何申请资源的一个流程......目录思路:步骤:总结:思路:在Standalone模式下集群启动时,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助Zookeeper,可以简单实现高可用性;而应用...原创 2019-06-18 18:59:18 · 1111 阅读 · 0 评论 -
[spark] standalone集群模式Driver启动过程
本篇文章简单整理一下spark在standalone集训模式下启动Driver的流程,本篇文章只解析到Driver启动成功,启动后续任务执行在后面博客更新,个人比较喜欢从代码跟踪,文章代码粘贴只提取部分重要代码。。。。。。一、脚本查看spark-submit触发任务的提交,查看spark-submit脚本会看出最终执行任务的主类是:exec "${SPARK_HOME}"/...原创 2019-06-17 20:55:26 · 888 阅读 · 0 评论 -
[spark] Standalone模式下worker启动流程
注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-slaves.shstart-slaves.sh中会调用org.apache.spark.deploy.master.Worker二、源码解析org.apache.spark.deploy.mas...原创 2019-06-17 16:27:28 · 718 阅读 · 0 评论 -
[spark] Standalone模式下Master启动流程
注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-master.shstart-master.sh二、源码解析org.apache.spark.deploy.master.Master1、Master主类进入main方法,main方法主要是创建RP...原创 2019-06-17 15:18:52 · 662 阅读 · 0 评论 -
[spark] SparkSQL知识点全集整理
SparkSQL是一个用于处理结构化数据的spark组件,主要强调的是“结构化”,让开发者少写代码、降低开发成本、提升数据分析执行效率、shark是SparkSQl的前身。目录简介DataFrame对比RDD:DataFrame常见创建方式:SparkSQL读写数据1、与RDD交互2、读写本地文件3、读写parquet4、读写json5、读写mysql...原创 2019-06-20 09:08:38 · 734 阅读 · 0 评论 -
Spark开发性能调优
Spark开发性能调优标签(空格分隔): Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark...转载 2019-08-04 16:57:38 · 197 阅读 · 0 评论