2016年12月_Xlucas

原创 YARN基本框架和工作流程

问题 1、YARN的基本组成架构 2、YARN的通信协议 3、YARN工作流程YARN是Hadoop2.0中资源管理系统，它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务：一个全局的资源管理器resourceManager和每个应用程序特有的ApplicationMaster，其中resourceManager负责整个系统的资源管理和分配，而ApplicationMa

2016-12-26 23:33:05 6030

原创 Hive源码分析一

问题： 1、hive的入口程序 2、hive的local化 3、hivesql执行过程 4、hive的解析和鉴权—下节一：hive的入口程序 1、从 cli.sh文件我们可以看到，调用了类CliDriver进行初始化操作 CLASS=org.apache.hadoop.hive.cli.CliDriver execHiveCmd $CLASS "$@"2、查看 CliDri

2016-12-23 11:25:13 3162

原创 YARN设计理念与基本架构

问题 1、MRV1设计存在的问题 2、MRV2中YARN带来的好处 3、YARN基本设计思想1、MRV1设计存在的问题由于MRV1在扩展性、可靠性、资源利用率和多框架等方面存在明显不足，于是诞生了下一代MapReduce计算框架MRV2先简单了解MRV1的一些局限性，这可概括为一下几个方面扩展性差：在MRV1中，jobtracker同时兼备了资源管理和作业控制两个功能，这成为系统

2016-12-22 23:36:05 1339

原创 flume和kafka对接

问题 flume采集日志用kafka来广播消息flume的配置[root@SZB-L0032016 bin]# cat ../conf/flume_kafka.conf a.sinks=k1a.sources=s1 s2a.channels=r1#定义source是从文本文件过来a.sources.s1.type=execa.sources.s1.command=tail -F /ro

2016-12-19 18:24:20 3196

转载 Kafka文件存储机制那些事

Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。1.前言一个商业化消息队列的性能好坏，其文件存储机制设计是衡量一个

2016-12-19 16:57:46 735

转载 apache kafka系列之在zookeeper中存储结构

1.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{ "version": "版本编号目前固定为数字1", "partitions": { "partitionId编号": [ 同步副本组brok

2016-12-19 15:53:58 584

原创 Kafka入门操作

问题： Kafka的安装过程 kafka的启动 kafka的样例http://apache.fayea.com/kafka/0.10.0.1/kafka_2.10-0.10.0.1.tgz 下载地址1、解压Kafka 惊讶的是Kafka内置了Zookeeper的安装包以及启停Zookeeper的脚本，版本比较低，是3.3.4版本。理论上不应该使用Kafka的版本，因为Zookeeper是个

2016-12-19 10:52:01 2627

原创 JDBC基本操作流程

问题： 1、JDBC是啥 2、JDBC在程序中位置 3、JDBC的操作流程 4、实例程序简介 JDBC全称为：Java DataBase Connectovoty(java数据库连接)它主要由接口组成，组成JDBC的2个包 java.sql javax.sqlJDBC在程序中的位置 JDBC的开发步骤 1、搭建开发环境，把数据库驱动jar包加入到应用的构建路径 classpat

2016-12-15 23:10:18 1341

原创 Flume入门笔记

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。（一）Flume架构介绍 1、Flume的概念 flume是分布式的

2016-12-13 10:41:19 1095

转载聊聊Greenplum的那些事

开卷有益——作者的话有时候真的感叹人生岁月匆匆，特别是当一个IT人沉浸于某个技术领域十来年后，蓦然回首，总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作，08年作为Greenplum 早期员工加入Greenplum团队（当时的工牌是“005”，哈哈），记得当时看了一眼Greenplum的架构（嗯，就是现在大家耳熟能详的那个好多个X86框框的图），就

2016-12-11 23:42:24 28915 8

安装过程： 1、先解压datax的安装包[root@slave1 datax]# tar -xvf datax.tar.gz 2、个datax的安装路径授权[root@slave1 datax]# chmod -R 775 ./datax3、测试样例[root@slave1 bin]# python datax.py ../job/job.jsonDataX (DATAX-OPENSOURCE-3

2016-12-10 23:56:10 12518 3

原创 linux 中crontab的使用

问题： 1、crontab是什么 2、crontab的各个参数表是什么 3、crontab的命令参数 3、crontab的样例 4、crontab的 5、>/dev/null 2>&1 的意思1、crontab概念 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令，并将其存放于“crontab”文件中，以供之后读取和执行。 cron 系统调度进程。可以

2016-12-10 18:17:46 818

转载阿里云开源离线同步工具DataX3.0介绍

一. DataX3.0概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负

2016-12-08 22:43:39 5417 3

原创 Centos6.5安装kettle6.1

kettle下载 url https://sourceforge.net/projects/pentaho/files/Data%20Integration/默认大家都已经安装好了jdk[kettle@SZB-L0038784 opt]$ java -versionjava version "1.7.0_45"OpenJDK Runtime Environment (rhel-2.4.3.3.e

2016-12-07 17:04:49 4258

转载 Apache kafka 工作原理介绍

消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行–它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中，为了集成分布式应用，开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息，对应用提供公共的信息交换机制是

2016-12-06 22:37:30 1065

原创实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算

2016-12-06 00:03:58 6370

原创 Linux中nc的安装

在Linux中有一个级强大的网络工具netcat，在默认情况下面都是没有安装的，现在介绍一下安装过程其实安装很简单只需输入命令[root@SZB-L0032015 ~]# yum install -y nc[root@SZB-L0032015 ~]# yum install -y ncLoaded plugins: fastestmirror, refresh-packagekit, secu

2016-12-02 07:47:30 47894 1

原创 Spark Streaming编程一

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习算法、图算法包来处理数据。它的工作流程像下面的图所示一样，接受到实时数据后，给

2016-12-02 07:41:26 629

Xlucas的博客