自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 Spark 2.1.0 大数据平台源码分析:章节序列

1. Spark CoreSpark Core (一) 什么是RDD的Transformation和Actions以及Dependency?Spark Core(二)Driver上的Task的生成、分配、调度Spark Core(三)Executor上是如何launch taskSpark Core(四)用LogQuery的例子来说明Execut

2017-11-30 17:30:08 475

转载 最近在SPARK上定位的几个内存泄露问题总结

最近为了测试延云YDB在高并发请求和持续性请求情况下的表现,发现了spark的不少关于内存泄露的问题,这些问题均在延云YDB提供的SPARK版本中得以修正,现将问题总结如下。1.    高并发情况下的内存泄露很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)    在进行大量小SQL的

2017-11-28 10:09:02 610

转载 大数据 の HBase 进阶

第五章:大数据 の HBase 进阶本课主题HBase 读写数据的流程HBase 性能优化和最住实践HBase 管理和集群操作HBase 备份和复制 引言 前一篇 HBase 基础 (HBase 基础) 简单介绍了NoSQL是什么和重点讨论 HBase 数据库的特点,在这一篇会进一步介绍 HBase 的其他特性和机制,

2017-11-25 10:04:59 1188

转载 Spark性能调优

http://blog.csdn.net/u011007180/article/category/6394993

2017-11-25 09:59:38 243

转载 Spark内存管理及钨丝计划

[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情本课主题 JVM 內存使用架构剖析Spark 1.6.x 和 Spark 2.x 的 JVM 剖析Spark 1.6.x 以前 on Yarn 计算内存使用案例Spark Unified Memory 的运行原理和机制 引言Spark 从1.6.x 开始对 JV

2017-11-25 09:53:55 844

转载 Spark闭包与序列化

本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载,否则将委托CSDN官方维护权益!Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一个函数还是一段代码片段,它们都是“闭包”,Spark会把这个闭包分发到各个worker节点上去执行,这里涉及到了一个容易被忽视的问题:闭包的“

2017-11-25 09:07:56 366

原创 hive on spark

hive on spark 是由cloudera推动的,所以相关资料在cloudera上https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html

2017-11-24 22:47:20 211

转载 Spark性能优化指南:高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2017-11-19 18:58:17 181

转载 Spark性能优化指南:基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执

2017-11-19 18:54:07 181

转载 spark中的cache() persist() checkpoint()之间的区别

cache()与persist():会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,写磁盘的话那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD。 实际上,将 ShuffleMapTask 的输出结果存放到本地

2017-11-18 22:27:58 211

转载 序列化之protobuf与avro对比(Java)

序列化之protobuf与avro对比(Java)  最近在做socket通信中用到了关于序列化工具选型的问题,在调研过程中开始趋向于用protobuf,可以省去了编解码的过程。能够实现快速开发,且只需要维护一份协议文件即可。  但是调研过程中发现了protobuf的一些弊端,比如需要生成相应的文件类,和业务绑定太紧密,所以在看了AVRO之后发现它完美解决了这个问题

2017-11-17 14:41:46 2251

转载 Protobuffer和json深度对比

JSON相信大家都知道是什么东西,如果不知道,那可就真的OUT了,GOOGLE一下去。这里就不介绍啥的了。Protobuffer大家估计就很少听说了,但如果说到是GOOGLE搞的,相信大家都会有兴趣去试一下,毕竟GOOGLE出口,多属精品。Protobuffer是一个类似JSON的一个传输协议,其实也不能说是协议,只是一个数据传输的东西罢了。那它跟JSON有什么区别呢?

2017-11-17 14:22:55 365

转载 hbase优化

hbase性能调优:插入,查询1,hbase.hregion.max.filesize不宜过大或过小,256MB或许是一个更理想的经验参数。对于离线型的应用,调整为128MB会更加合适一些,而在线应用除非对split机制进行改造,否则不应该低于256MB原来10G改成100G2,hbase.regionserver.handler

2017-11-17 10:31:16 298

转载 跟着示例学Oozie

在前一篇文章《Oozie简介》中,我们已经描述了Oozie工作流服务器,并且展示了一个非常简单的工作流示例。我们还描述了针对Oozie的工作流的部署和配置,以及用来启动、停止和监控Oozie工作流的工具。在本文中,我们会描述一个更加复杂的例子,通过它我们可以讨论更多Oozie特性,并演示如何来使用它们。定义过程我们在此描述的工作流会实现汽车GPS探测数据的获取过程。我们每个

2017-11-16 16:27:42 250

转载 Hue上的Oozie如何构建工作流和定时任务

Oozie是什么?Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:工作流定义当前运行的工作流实例,包括实例的状态和变量Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue能干什么? 1,访问HDFS和文件浏

2017-11-16 15:03:40 1461

原创 cdh的agent无法启动

查看supervisord的日志有如下错误:[root@cdh1 ~]#  cat /opt/cm-5.10.0/log/cloudera-scm-agent/supervisord.out /opt/cm-5.10.0/lib64/cmf/agent/build/env/lib64/python2.7/site-packages/supervisor-3.0-py2.7.egg/supe

2017-11-13 18:13:59 2280

转载 从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)的进程,当然在Driver上你也可以做很多非Spark的事情,这些事情只会在Driver上面执行,而由SparkContext上牵引出来的代

2017-11-12 22:14:10 334

原创 kafka+sparkstreaming 获取每个分区的偏移范围

package com.kafka.wordcountimport java.utilimport kafka.serializer.StringDecoderimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{HashPartitioner, SparkConf, TaskContext}imp

2017-11-12 12:17:06 864

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除