chenji5873-CSDN博客

转载深度剖析Spark分布式执行原理

让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。Spark是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于Spark源码分析的文章有很多，但是介绍Spark如何处理代码分布式执行问题的资料少之又少，这也是我撰写文本的目的。Spark运行在JVM之上，...

2017-07-17 14:48:00 226

转载在Apache Spark 2.0中使用 DataFrames 和 SQL

Spark 2.0开发的一个动机是让它可以触及更广泛的受众，特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此，Spark 2.0现在比以往更易使用。在这部分，我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类...

2017-07-11 10:45:00 176

转载 Spark性能优化：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。 1.数据倾斜调优 ...

2017-07-07 15:26:00 196

转载 Spark性能优化：资源调优篇

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集...

2017-07-07 15:09:00 176

转载 Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试...

2017-07-07 14:48:00 119

转载 Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能...

2017-07-07 14:44:00 105

转载 Spark的运行模式

Point 1：Spark on Standalone Standalone模式是Spark实现的资源调度框架，其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。当用spark-shell交互...

2017-07-05 11:15:00 109

转载 Spark的运行模式

Point 1：Spark on Standalone Standalone模式是Spark实现的资源调度框架，其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。当用spark-shell交互...

2017-07-05 11:14:00 100

转载 Scala注解

Annotation是一种对程序代码进行描述的结构化信息。Annotation可以分布在程序的任何地方，能够注解变量、类、方法、参数等多种元素，它的主要功能有以下几种： 1.自动生成scala文档 2. 检查程序中可能出现的语法问题 3. 规定程序行为注解的常用场景包括v...

2017-06-30 13:55:00 166

转载 Spark面对OOM问题的解决方法及优化总结

Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，red...

2017-06-29 11:01:00 160

转载 spark 排错与优化

一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成Sparkui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启...

2017-05-17 16:39:00 416

转载关于count(distinct)的优化

日常统计场景中，我们经常会对一段时期内的字段进行消重并统计数量，SQL语句类似于 SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...; 这条语句是从一个表的符合WHERE条件的记录中统计不重复的id的总数。该语句转化为MapRed...

2017-05-02 10:20:00 3988

转载 HIVE动态分区插入数据

Hive的insert语句能够从查询语句中获取数据，并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees（雇员信息全量表），所属国家cnty和所属州st是该表的两个属性，我们做个试验将该表中的数据查询出来插入到另一个表employees中。 ...

2017-04-21 16:00:00 383

转载关于数据倾斜的解决方案

数据倾斜：并行处理的数据集中，某一部分的数据显著多于其他部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。 spark中同一个stage的不同partition可以并行处理，而具有依赖关系的不同的stage之间只能串行处理。一个stage可以包含N个task，这N个task可以并行...

2017-03-20 14:26:00 379

转载 Spark运行原理

1.宽依赖和窄依赖 map,filter、union等transformation操作后的RDD仅依赖于父RDD的固定分区，它们是窄依赖的；而groupByKey后的RDD的分区与父RDD所有的分区都有依赖关系，此时它们就是宽依赖的。join操作存在两种情况，如果分区仅仅依赖于父RDD的...

2017-03-14 11:13:00 113

转载 spark学习笔记

1.RDD操作 RDDS支持两种类型的操作 : transformations（转换）：在一个已存在的dataset上创建一个新的dataset。 actions（动作）:将在dataset上运行的计算结果返回到驱动程序。例如 :map是一个通过让每个...

2017-03-13 18:56:00 119

转载深度剖析Spark分布式执行原理

转载在Apache Spark 2.0中使用 DataFrames 和 SQL

转载 Spark性能优化：数据倾斜调优

转载 Spark性能优化：资源调优篇

转载 Spark性能优化：开发调优篇

转载 Spark性能优化：shuffle调优

转载 Spark的运行模式

转载 Spark的运行模式

转载 Scala注解

转载 Spark面对OOM问题的解决方法及优化总结

转载 spark 排错与优化

转载关于count(distinct)的优化

转载 HIVE动态分区插入数据

转载关于数据倾斜的解决方案

转载 Spark运行原理

转载 spark学习笔记

空空如也

空空如也