2016年04月_cache007

转载深入理解Apache Flink核心技术

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。F

2016-04-28 15:11:47 2228

转载 spark-submit使用及说明

一、命令 1.向spark standalone以client方式提交job。?1./spark-submit --master spark://hadoop3:7077 --deploy-mode client --class org.apache.spark.examples.SparkPi ../lib/spark-exam

2016-04-27 15:56:23 30460

转载 Apache Zeppelin使用入门指南：编程

Apache Zeppelin使用入门指南：安装　　Apache Zeppelin使用入门指南：编程　　Apache Zeppelin使用入门指南：添加外部依赖使用Apache Zeppelin　　编译和启动完Zeppelin相关的进程之后，我们就可以来使用Zeppelin了。我们进入到http://www.iteblog.com:8080页面，我们可以在页面上直接操作Ze

2016-04-27 09:17:09 1590

转载 Apache Zeppelin使用入门指南：安装

Apache Zeppelin使用入门指南：安装　　Apache Zeppelin使用入门指南：编程　　Apache Zeppelin使用入门指南：添加外部依赖　　Apache Zeppelin是一款基于web的notebook(类似于ipython的notebook)，支持交互式地数据分析。原生就支持Spark、Scala、SQL 、shell, markdown等。而且它是

2016-04-27 08:56:36 1363

转载 Storm 1.0.0 正式发布

Apache storm社区很高兴的宣布版本1.0.0稳定已经发布，可以从the downloads page下载。这个版本是Apache storm演变的一个重要的里程碑，包括大量的新特性，可用性和性能方面的改进，其中一些如下。性能提升该版本主要亮点之一就是性能较之前的版本有一个巨大的性能提升，Apache Storm 1.0 的性能较之前的版本提升16倍，延迟降低了60%。

2016-04-25 19:09:57 508

转载 storm1.0集群部署（含HA）

Storm1.0集群部署部署前准备下载V1.0.0http://mirrors.cnnic.cn/apache/storm/apache-storm-1.0.0/apache-storm-1.0.0.tar.gz zookeeper信息192.168.7.108:2181192.168.7.109:2181192.168.7

2016-04-25 14:55:18 2177

转载 SQL On Storm ——EasyCount系统概述

1. 摘要：TDW 很好的解决了海量数据离线处理问题，但是在如下场景下：实时报表，实时监控，实时推荐，实时分析，TDW无法满足需求。而storm是应对这些场景的利器，但是storm开发的门槛较高，对于大多数使用TDW的同学来说，若是能有一套支持storm的SQL，想必那是极好的。故此本宫，不，本团队开发了EasyCount以飧大众。EasyCount 使用SQL描述业务的实时计

2016-04-21 17:26:02 3111

转载理解Netty中的零拷贝（Zero-Copy）机制

理解零拷贝零拷贝是Netty的重要特性之一，而究竟什么是零拷贝呢？ WIKI中对其有如下定义：“Zero-copy” describes computer operations in which the CPU does not perform the task of copying data from one memory area to another.从W

2016-04-21 16:22:28 3358

转载 Zero Copy

原文出处: http://www.ibm.com/developerworks/library/j-zerocopy/ 传统的I/O使用传统的I/O程序读取文件内容, 并写入到另一个文件(或Socket), 如下程序:File.read(fileDesc, buf, len);Socket.send(socket, buf, len);会有较大的性能开

2016-04-21 16:21:37 276

转载 Kafka/Metaq设计思想学习笔记

概念和术语消息，全称为Message，是指在生产者、服务端和消费者之间传输数据。消息代理：全称为Message Broker，通俗来讲就是指该MQ的服务端或者说服务器。消息生产者：全称为Message Producer，负责产生消息并发送消息到meta服务器。消息消费者：全称为Message Consumer，负责消息的消费。消息的主题：全称为Message Topic，由用户定义并在Br

2016-04-21 16:16:27 820

转载 Kafka背景及架构介绍

背景介绍Kafka创建背景Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（Activity Stream）和运营数据处理管道（Pipeline）的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量（Page Vie

2016-04-21 16:09:26 306

转载 Kafka的设计思想、理念

本节主要从整体角度介绍Kafka的设计思想，其中的每个理念都可以深入研究，以后我可能会发专题文章做深入介绍，在这里只做较概括的描述以便大家更好的理解Kafka的独特之处。本节主要涉及到如下主要内容：Kafka设计基本思想Kafka中的数据压缩Kafka消息转运过程中的可靠性Kafka集群镜像复制Kafka 备份机制一、kafka由来由于对JMS日常管理的过度开支和传统JMS可扩

2016-04-21 15:48:45 486

转载 Spark性能相关参数配置之 schedule调度相关

schedule调度相关调度相关的参数设置，大多数内容都很直白，其实无须过多的额外解释，不过基于这些参数的常用性（大概会是你针对自己的集群第一步就会配置的参数），这里多少就其内部机制做一些解释。spark.cores.max一个集群最重要的参数之一，当然就是CPU计算资源的数量。spark.cores.max 这个参数决定了在Standalone和Mesos模式下，一个Sp

2016-04-17 15:43:40 556

转载 Spark性能相关参数配置之压缩和序列化相关

压缩和序列化相关spark.serializer默认为org.apache.spark.serializer.JavaSerializer, 可选 org.apache.spark.serializer.KryoSerializer, 实际上只要是org.apache.spark.serializer的子类就可以了,不过如果只是应用,大概你不会自己去实现一个的。序列化对于spa

2016-04-17 15:35:13 456

转载 Spark性能相关参数配置之 Storage相关配置参数

spark.local.dir这个看起来很简单，就是Spark用于写中间数据，如RDD Cache，Shuffle，Spill等数据的位置，那么有什么可以注意的呢。首先，最基本的当然是我们可以配置多个路径（用逗号分隔）到多个磁盘上增加整体IO带宽，这个大家都知道。其次，目前的实现中，Spark是通过对文件名采用hash算法分布到多个路径下的目录中去，如果你的存储设备有快有慢，比如SSD

2016-04-17 15:01:03 383

转载 Spark性能相关参数配置之 Shuffle 相关

Shuffle 相关Shuffle操作大概是对Spark性能影响最大的步骤之一（因为可能涉及到排序，磁盘IO，网络IO等众多CPU或IO密集的操作），这也是为什么在Spark 1.1的代码中对整个Shuffle框架代码进行了重构，将Shuffle相关读写操作抽象封装到Pluggable的Shuffle Manager中，便于试验和实现不同的Shuffle功能模块。例如为了解决Hash Ba

2016-04-17 14:15:20 337

转载 YARN 简介

YARN 简介Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案，但大型开发人员社区仍在不断改进它。最终，2.0 版提供了多项革命性功能，其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可

2016-04-11 15:52:36 589

转载从作业提交到任务调度完整生命周期浅析

引言这一小节我们将就之前写的几篇博文，从提交Job，到Stage划分，到任务分发，再到任务的执行，这一完整过程做一系统的回顾。在这一过程中理清思路，明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程上面这个图摘自张包峰的csdn博客，这个图很清晰的描述了作业提交执行的整个过程，略去了细节原理，给人一种清晰直观的流程概况。通过该图结合一下我之前的博文来描述一下

2016-04-08 17:15:23 757

转载 RDD操作详解3——键值型Transformation算子

Transformation处理的数据为Key-Value形式的算子大致可以分为：输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues：针对（Key，Value）型数据中的Value进行Map操作，而不对Key进行处理。方框代表RDD分区。a=>a+2代表只对（ V1， 1）数据中的1进行加2操作，返回结果为3。源码：

2016-04-08 14:31:08 424

转载 RDD操作详解2——值型Transformation算子

处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:1）输入分区与输出分区一对一型2）输入分区与输出分区多对一型3）输入分区与输出分区多对多型4）输出分区为输入分区子集型5）还有一种特殊的输入与输出分区一对一的算子类型：Cache型。 Cache算子对RDD分区进行缓存输入分区与输出分区一对一型

2016-04-08 14:30:27 803

转载 RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockM

2016-04-08 14:29:43 606

转载 Spark的Shuffle机制

MapReduce中的Shuffle在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使

2016-04-08 14:28:40 333

转载 Spark容错机制

引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后将

2016-04-07 19:47:36 464

转载 RDD机制实现模型

RDD渊源弹性分布式数据集(RDD)，它是MapReduce模型一种简单的扩展和延伸，RDD为了实现迭代、交互性和流查询等功能，需要保证RDD具备在并行计算阶段之间能够高效地数据共享的功能特性。RDD运用高效的数据共享概念和类似于MapReduce的操作方式，使得所有的计算工作可以有效地执行，并可以在当前特定的系统中获得关键性的优化。RDD是一种有容错机制的特殊集合，可以分布在集群的节点上，以函

2016-04-07 18:01:55 1089

转载 HttpClient的超时用法小记

HttpClient在使用中有两个超时时间，是一直接触和使用的，由于上次工作中使用httpClient造成了系统悲剧的情况，特地对它的两个超时时间进行了小小的测试，在这里记录下。测试版本为HttpClient——3.1 一：连接超时：connectionTimeout 1：指的是连接一个url的连接等待时间。 2：设置方法为： public class TestHttpClientMain {/

2016-04-07 17:46:19 1299

转载 RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进

2016-04-07 17:10:20 766

转载 Spark应用执行机制

Spark应用概念Spark应用（Application）是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行，Spark应用的运行方式又可以分为Cluster模式和Client模式。下面是Spark应用涉及的一些基本概念：Application：Spark

2016-04-07 16:51:31 3865

转载弹性分布式数据集RDD概述

弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作

2016-04-05 19:49:51 4411

转载 Spark基本概念

Spark专用名词RDD —- resillient distributed dataset 弹性分布式数据集Operation —- 作用于RDD的各种操作分为transformation和actionJob —- 作业，一个JOB包含多个RDD及作用于相应RDD上的各种operationStage —- 一个作业分为多个阶段Partition —- 数据分区，一个RDD中的数据可以分

2016-04-05 18:12:53 854

转载 Spark生态和Spark架构

Spark概览Spark 是一个通用的大规模数据快速处理引擎。可以简单理解为 Spark 就是一个大数据分布式处理框架。Spark是基于map reduce算法实现的分布式计算框架，但不同的是Spark的中间输出和结果输出可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地用于数据挖掘与机器学习等需要迭代的map reduce的算法中。Spark生态系统BDAS伯克利

2016-04-05 18:04:09 6294

转载 Spark的Standalone模式安装部署

Spark运行模式Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mesos 环境，也是很方便部署的。local(本地模式)：常用于本地开发测试，本

2016-04-05 17:08:09 973

cache007的专栏

转载深入理解Apache Flink核心技术

转载 spark-submit使用及说明

转载 Apache Zeppelin使用入门指南：编程

转载 Apache Zeppelin使用入门指南：安装

转载 Storm 1.0.0 正式发布

转载 storm1.0集群部署（含HA）

转载 SQL On Storm ——EasyCount系统概述

转载理解Netty中的零拷贝（Zero-Copy）机制

转载 Zero Copy

转载 Kafka/Metaq设计思想学习笔记

转载 Kafka背景及架构介绍

转载 Kafka的设计思想、理念

转载 Spark性能相关参数配置之 schedule调度相关

转载 Spark性能相关参数配置之压缩和序列化相关

转载 Spark性能相关参数配置之 Storage相关配置参数

转载 Spark性能相关参数配置之 Shuffle 相关

转载 YARN 简介

转载从作业提交到任务调度完整生命周期浅析

转载 RDD操作详解3——键值型Transformation算子

转载 RDD操作详解2——值型Transformation算子

转载 RDD操作详解1——Transformation和Actions概况

转载 Spark的Shuffle机制

转载 Spark容错机制

转载 RDD机制实现模型

转载 HttpClient的超时用法小记

转载 RDD操作详解1——Transformation和Actions概况

转载 Spark应用执行机制

转载弹性分布式数据集RDD概述

转载 Spark基本概念

转载 Spark生态和Spark架构

转载 Spark的Standalone模式安装部署

基于flink的平台化构建以及运维优化

空空如也