- 博客(18)
- 资源 (2)
- 收藏
- 关注
原创 YARN基本框架和工作流程
问题 1、YARN的基本组成架构 2、YARN的通信协议 3、YARN工作流程YARN是Hadoop2.0中资源管理系统,它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务:一个全局的资源管理器resourceManager和每个应用程序特有的ApplicationMaster,其中resourceManager负责整个系统的资源管理和分配,而ApplicationMa
2016-12-26 23:33:05 6030
原创 Hive源码分析一
问题: 1、hive的入口程序 2、hive的local化 3、hivesql执行过程 4、hive的解析和鉴权—下节一 :hive的入口程序 1、从 cli.sh文件我们可以看到,调用了类CliDriver进行初始化操作 CLASS=org.apache.hadoop.hive.cli.CliDriver execHiveCmd $CLASS "$@"2、 查看 CliDri
2016-12-23 11:25:13 3162
原创 YARN设计理念与基本架构
问题 1、MRV1设计存在的问题 2、MRV2中YARN带来的好处 3、YARN基本设计思想1、MRV1设计存在的问题 由于MRV1在扩展性、可靠性、资源利用率和多框架等方面存在明显不足,于是诞生了下一代MapReduce计算框架MRV2先简单了解MRV1的一些局限性,这可概括为一下几个方面扩展性差:在MRV1中,jobtracker同时兼备了资源管理和作业控制两个功能,这成为系统
2016-12-22 23:36:05 1339
原创 flume和kafka对接
问题 flume采集日志用kafka来广播消息flume的配置[root@SZB-L0032016 bin]# cat ../conf/flume_kafka.conf a.sinks=k1a.sources=s1 s2a.channels=r1#定义source是从文本文件过来a.sources.s1.type=execa.sources.s1.command=tail -F /ro
2016-12-19 18:24:20 3196
转载 Kafka文件存储机制那些事
Kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。1.前言一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个
2016-12-19 16:57:46 735
转载 apache kafka系列之在zookeeper中存储结构
1.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{ "version": "版本编号目前固定为数字1", "partitions": { "partitionId编号": [ 同步副本组brok
2016-12-19 15:53:58 584
原创 Kafka入门操作
问题: Kafka的安装过程 kafka的启动 kafka的样例http://apache.fayea.com/kafka/0.10.0.1/kafka_2.10-0.10.0.1.tgz 下载地址1、解压Kafka 惊讶的是Kafka内置了Zookeeper的安装包以及启停Zookeeper的脚本,版本比较低,是3.3.4版本。理论上不应该使用Kafka的版本,因为Zookeeper是个
2016-12-19 10:52:01 2627
原创 JDBC基本操作流程
问题: 1、JDBC是啥 2、JDBC在程序中位置 3、JDBC的操作流程 4、实例程序简介 JDBC全称为:Java DataBase Connectovoty(java数据库连接)它主要由接口组成, 组成JDBC的2个包 java.sql javax.sqlJDBC在程序中的位置 JDBC的开发步骤 1、搭建开发环境,把数据库驱动jar包加入到应用的构建路径 classpat
2016-12-15 23:10:18 1341
原创 Flume入门笔记
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 (一)Flume架构介绍 1、Flume的概念 flume是分布式的
2016-12-13 10:41:19 1095
转载 聊聊Greenplum的那些事
开卷有益——作者的话 有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就
2016-12-11 23:42:24 28915 8
原创 Datax3.0的安装和基本使用
安装过程: 1、先解压datax的安装包[root@slave1 datax]# tar -xvf datax.tar.gz 2、个datax的安装路径授权[root@slave1 datax]# chmod -R 775 ./datax3、测试样例[root@slave1 bin]# python datax.py ../job/job.jsonDataX (DATAX-OPENSOURCE-3
2016-12-10 23:56:10 12518 3
原创 linux 中crontab的使用
问题: 1、crontab是什么 2、crontab的各个参数表是什么 3、crontab的命令参数 3、crontab的样例 4、crontab的 5、>/dev/null 2>&1 的意思1、crontab概念 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。 cron 系统调度进程。 可以
2016-12-10 18:17:46 818
转载 阿里云开源离线同步工具DataX3.0介绍
一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负
2016-12-08 22:43:39 5417 3
原创 Centos6.5安装kettle6.1
kettle下载 url https://sourceforge.net/projects/pentaho/files/Data%20Integration/默认大家都已经安装好了jdk[kettle@SZB-L0038784 opt]$ java -versionjava version "1.7.0_45"OpenJDK Runtime Environment (rhel-2.4.3.3.e
2016-12-07 17:04:49 4258
转载 Apache kafka 工作原理介绍
消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行–它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是
2016-12-06 22:37:30 1065
原创 实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算
2016-12-06 00:03:58 6370
原创 Linux中nc的安装
在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程 其实安装很简单只需输入命令[root@SZB-L0032015 ~]# yum install -y nc[root@SZB-L0032015 ~]# yum install -y ncLoaded plugins: fastestmirror, refresh-packagekit, secu
2016-12-02 07:47:30 47894 1
原创 Spark Streaming编程一
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。 它的工作流程像下面的图所示一样,接受到实时数据后,给
2016-12-02 07:41:26 629
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人