自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

曹利荣的博客

努力成为程序大牛。

  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

原创 spark on yarn时的spark-submit参数详细剖析

1、spark sql内置函数的使用需求:求每天的销售额 时间 消费金额 顾客名"2018-01-01, 50, 1111""2018-01-01, 60, 2222""2018-01-01, 70, 3333""2018-01-02, 150, ...

2018-06-08 21:06:38 3394

原创 Spark从入门到精通第十七课:SparkStreaming 对比Storm && SparkStreaming的核心算子

1、SparkStreaming && Storm的区别?答: SparkStreaming 是微批处理,不是真正的实时,它的实时性取决于自定义的间隔是多大。 Storm是真正意义上的实时处理,因为它是一条一条处理数据的。但Storm的吞吐量比起SparkStreaming是要小很多的。 SparkStreaming依托于Spark,所以Spar...

2018-06-08 17:47:59 295

原创 Spark从入门到精通第十六课:Spark SQL的udf函数和udaf函数 && 开窗函数

UDF函数的使用package com.lirongimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 本类主要演示udf函数的注册和使用 */object SparkTest { def main(args: Array[String]): Unit = { val ss: SparkSess...

2018-06-08 11:52:15 539

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...

2018-06-06 15:24:03 318

转载 Spark on Yarn 和MapReduce on Yarn对比

Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二...

2018-06-05 21:17:19 296

转载 Spark优化指南--------基础篇

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能...

2018-06-05 15:52:57 274

转载 Spark分区数详解

spark.default.parallelism:(默认的并发数)= 2当配置文件spark-default.conf中没有显示的配置,则按照如下规则取值:1、本地模式(不会启动executor,由SparkSubmit进程生成指定数量的线程数来并发):    spark-shell       spark.default.parallelism = 1    spark-shell --mas...

2018-06-04 12:23:17 6284

原创 工具类:Spark参数管理工具类

package com.lirong.util;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.lirong.conf.ConfigurationManager;import com.lirong.constant.Constants;/** ...

2018-06-04 12:09:04 1184

转载 Spark运行模式对比

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一...

2018-06-04 10:12:26 503

转载 Spark几种运行模式

spark应用执行机制分析前段时间一直在编写指标代码,一直采用的是--deploy-mode client方式开发测试,因此执行没遇到什么问题,但是放到生产上采用--master yarn-cluster方式运行,那问题就开始陆续暴露出来了。因此写一篇文章分析并记录一下spark的几种运行方式。1.spark应用的基本概念spark运行模式分为:Local(本地idea上运行),Standalon...

2018-06-04 10:09:22 3497

原创 Spark大数据面试题1

1、spark在什么场景比不上MapReduce?Spark 在内存中处理数据,需要很大的内存容量。如果 Spark 与其它资源需求型服务一同运行在YARN 上,又或者数据块太大以至于不能完全读入内存,此时 Spark 的性能就会有很大的降低,此时Spark可能比不上MapReduce。当对数据的操作只是简单的ETL的时候,Spark比不上MapReduce。2、spark sql和sql的区别?...

2018-06-03 10:28:42 5702 1

原创 Hadoop的资源调器-----Yarn的优化

理论基础1、概述 一般说yarn的调优,就是指Container的调优,而Container是运行在NM节点上的,而在NM的节点,一般还运行着DN进程(数据本地化),DN+NM两进程不可占据节点的全部内存,一般在75%~85%(不考虑hbase)之间比较合适,对于一台64G内存的机器,生产上可使得DN+NM=54G,DN=4G,NM=50G。 ####hbase内存一般和...

2018-06-02 23:33:52 3462

原创 Hadoop大数据面试题

1、hadoop操作命令mv 对比copy?mv 性能更高,copy会改变时间属性,mv不会。2、操作HDFS有哪几种方式?JAVA API 、Web UI 、Shell3、MR的执行流程(yarn的工作流程、作业执行过程)?客户端提交一个作业,ResourceManager为该作业分配第一个Container,并与对应的NodeManager通信,要求NodeMa...

2018-06-02 13:03:10 1319

转载 生产常用yarn命令集锦

原文链接:http://www.aboutyun.com/thread-14930-1-1.html问题导读1.对于Hadoop集群用户有哪些有用的命令?2.打印需要得到Hadoop的jar和所需要的lib包路径使用的什么命令?3.对hadoop集群的管理员有哪些很有用的命令?概述YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述...

2018-06-02 13:02:04 8162

原创 补充MapReduce编程模型及JAVA简单实现WordCount

MapRedu编程模型MR编程模型: 1、map的输出就是reduce的输入。 2、所有的输入和输出都是键值对形式: <k1,v1>:map输入,来自hdfs,k1为每行数据偏移量,v1为该行数据 <k2,v2>:map输出 <k3,v3>:reduce输入,k2==k3,v3是集合,元素为...

2018-06-02 10:43:57 476

转载 【调优经典】Map和Reduce 个数的设定 经典

一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文...

2018-06-02 09:38:07 4114 1

mysql-connector.zip

从5.1.4到6.0.6 的所有版本的连接器:mysql-connector-java-6.0.6.jar

2021-10-27

Python基础教程.doc

Python基础教程.doc基础文档,适用于快速入门,请放心下载。

2019-05-08

mindmaster-cn-7.0-beta.exe

mindmaster-cn-7.0-beta.exe安装包,真实可用,请放心下载。

2019-05-08

PLSQL压缩包

该压缩包直接解压使用即可,不需要任何配置。

2019-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除