2017年11月_丹江怒潮

转载 Spark 2.1.0 大数据平台源码分析：章节序列

1. Spark CoreSpark Core (一) 什么是RDD的Transformation和Actions以及Dependency?Spark Core（二）Driver上的Task的生成、分配、调度Spark Core（三）Executor上是如何launch taskSpark Core（四）用LogQuery的例子来说明Execut

2017-11-30 17:30:08 475

转载最近在SPARK上定位的几个内存泄露问题总结

最近为了测试延云YDB在高并发请求和持续性请求情况下的表现，发现了spark的不少关于内存泄露的问题，这些问题均在延云YDB提供的SPARK版本中得以修正，现将问题总结如下。1. 高并发情况下的内存泄露很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a) 在进行大量小SQL的

2017-11-28 10:09:02 610

转载大数据の HBase 进阶

第五章：大数据の HBase 进阶本课主题HBase 读写数据的流程HBase 性能优化和最住实践HBase 管理和集群操作HBase 备份和复制引言前一篇 HBase 基础 (HBase 基础) 简单介绍了NoSQL是什么和重点讨论 HBase 数据库的特点，在这一篇会进一步介绍 HBase 的其他特性和机制，

2017-11-25 10:04:59 1188

转载 Spark性能调优

http://blog.csdn.net/u011007180/article/category/6394993

2017-11-25 09:59:38 243

转载 Spark内存管理及钨丝计划

[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情本课主题 JVM 內存使用架构剖析Spark 1.6.x 和 Spark 2.x 的 JVM 剖析Spark 1.6.x 以前 on Yarn 计算内存使用案例Spark Unified Memory 的运行原理和机制引言Spark 从1.6.x 开始对 JV

2017-11-25 09:53:55 844

转载 Spark闭包与序列化

本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载，否则将委托CSDN官方维护权益！Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一个函数还是一段代码片段，它们都是“闭包”，Spark会把这个闭包分发到各个worker节点上去执行，这里涉及到了一个容易被忽视的问题：闭包的“

2017-11-25 09:07:56 366

原创 hive on spark

hive on spark 是由cloudera推动的，所以相关资料在cloudera上https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html

2017-11-24 22:47:20 211

转载 Spark性能优化指南：高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2017-11-19 18:58:17 181

转载 Spark性能优化指南：基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用 Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执

2017-11-19 18:54:07 181

转载 spark中的cache() persist() checkpoint()之间的区别

cache()与persist()：会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory，写磁盘的话那就叫 checkpoint 了。哪些 RDD 需要 checkpoint？运算时间很长或运算量太大才能得到的 RDD，computing chain 过长或依赖其他 RDD 很多的 RDD。实际上，将 ShuffleMapTask 的输出结果存放到本地

2017-11-18 22:27:58 211

转载序列化之protobuf与avro对比(Java)

序列化之protobuf与avro对比(Java) 最近在做socket通信中用到了关于序列化工具选型的问题，在调研过程中开始趋向于用protobuf，可以省去了编解码的过程。能够实现快速开发，且只需要维护一份协议文件即可。但是调研过程中发现了protobuf的一些弊端，比如需要生成相应的文件类，和业务绑定太紧密，所以在看了AVRO之后发现它完美解决了这个问题

2017-11-17 14:41:46 2251

转载 Protobuffer和json深度对比

JSON相信大家都知道是什么东西，如果不知道，那可就真的OUT了，GOOGLE一下去。这里就不介绍啥的了。Protobuffer大家估计就很少听说了，但如果说到是GOOGLE搞的，相信大家都会有兴趣去试一下，毕竟GOOGLE出口，多属精品。Protobuffer是一个类似JSON的一个传输协议，其实也不能说是协议，只是一个数据传输的东西罢了。那它跟JSON有什么区别呢？

2017-11-17 14:22:55 365

转载 hbase优化

hbase性能调优：插入，查询1,hbase.hregion.max.filesize不宜过大或过小，256MB或许是一个更理想的经验参数。对于离线型的应用，调整为128MB会更加合适一些，而在线应用除非对split机制进行改造，否则不应该低于256MB原来10G改成100G2,hbase.regionserver.handler

2017-11-17 10:31:16 298

转载跟着示例学Oozie

在前一篇文章《Oozie简介》中，我们已经描述了Oozie工作流服务器，并且展示了一个非常简单的工作流示例。我们还描述了针对Oozie的工作流的部署和配置，以及用来启动、停止和监控Oozie工作流的工具。在本文中，我们会描述一个更加复杂的例子，通过它我们可以讨论更多Oozie特性，并演示如何来使用它们。定义过程我们在此描述的工作流会实现汽车GPS探测数据的获取过程。我们每个

2017-11-16 16:27:42 250

转载 Hue上的Oozie如何构建工作流和定时任务

Oozie是什么？Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：工作流定义当前运行的工作流实例，包括实例的状态和变量Hue是什么？ Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue能干什么？ 1，访问HDFS和文件浏

2017-11-16 15:03:40 1461

原创 cdh的agent无法启动

查看supervisord的日志有如下错误：[root@cdh1 ~]# cat /opt/cm-5.10.0/log/cloudera-scm-agent/supervisord.out /opt/cm-5.10.0/lib64/cmf/agent/build/env/lib64/python2.7/site-packages/supervisor-3.0-py2.7.egg/supe

2017-11-13 18:13:59 2280

转载从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver，任何一个yarn上运行的任务都必须有一个AppMaster，而任何一个Spark任务都会有一个Driver，Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)的进程，当然在Driver上你也可以做很多非Spark的事情，这些事情只会在Driver上面执行，而由SparkContext上牵引出来的代

2017-11-12 22:14:10 334

原创 kafka+sparkstreaming 获取每个分区的偏移范围

package com.kafka.wordcountimport java.utilimport kafka.serializer.StringDecoderimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{HashPartitioner, SparkConf, TaskContext}imp

2017-11-12 12:17:06 864

qq_24365213的博客