自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 YARN基本框架和工作流程

问题 1、YARN的基本组成架构 2、YARN的通信协议 3、YARN工作流程YARN是Hadoop2.0中资源管理系统,它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务:一个全局的资源管理器resourceManager和每个应用程序特有的ApplicationMaster,其中resourceManager负责整个系统的资源管理和分配,而ApplicationMa

2016-12-26 23:33:05 6030

原创 Hive源码分析一

问题: 1、hive的入口程序 2、hive的local化 3、hivesql执行过程 4、hive的解析和鉴权—下节一 :hive的入口程序 1、从 cli.sh文件我们可以看到,调用了类CliDriver进行初始化操作 CLASS=org.apache.hadoop.hive.cli.CliDriver execHiveCmd $CLASS "$@"2、 查看 CliDri

2016-12-23 11:25:13 3162

原创 YARN设计理念与基本架构

问题 1、MRV1设计存在的问题 2、MRV2中YARN带来的好处 3、YARN基本设计思想1、MRV1设计存在的问题 由于MRV1在扩展性、可靠性、资源利用率和多框架等方面存在明显不足,于是诞生了下一代MapReduce计算框架MRV2先简单了解MRV1的一些局限性,这可概括为一下几个方面扩展性差:在MRV1中,jobtracker同时兼备了资源管理和作业控制两个功能,这成为系统

2016-12-22 23:36:05 1339

原创 flume和kafka对接

问题 flume采集日志用kafka来广播消息flume的配置[root@SZB-L0032016 bin]# cat ../conf/flume_kafka.conf a.sinks=k1a.sources=s1 s2a.channels=r1#定义source是从文本文件过来a.sources.s1.type=execa.sources.s1.command=tail -F /ro

2016-12-19 18:24:20 3196

转载 Kafka文件存储机制那些事

Kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。1.前言一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个

2016-12-19 16:57:46 735

转载 apache kafka系列之在zookeeper中存储结构

1.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{    "version": "版本编号目前固定为数字1",    "partitions": {        "partitionId编号": [            同步副本组brok

2016-12-19 15:53:58 584

原创 Kafka入门操作

问题: Kafka的安装过程 kafka的启动 kafka的样例http://apache.fayea.com/kafka/0.10.0.1/kafka_2.10-0.10.0.1.tgz 下载地址1、解压Kafka 惊讶的是Kafka内置了Zookeeper的安装包以及启停Zookeeper的脚本,版本比较低,是3.3.4版本。理论上不应该使用Kafka的版本,因为Zookeeper是个

2016-12-19 10:52:01 2627

原创 JDBC基本操作流程

问题: 1、JDBC是啥 2、JDBC在程序中位置 3、JDBC的操作流程 4、实例程序简介 JDBC全称为:Java DataBase Connectovoty(java数据库连接)它主要由接口组成, 组成JDBC的2个包 java.sql javax.sqlJDBC在程序中的位置 JDBC的开发步骤 1、搭建开发环境,把数据库驱动jar包加入到应用的构建路径 classpat

2016-12-15 23:10:18 1341

原创 Flume入门笔记

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 (一)Flume架构介绍 1、Flume的概念 flume是分布式的

2016-12-13 10:41:19 1095

转载 聊聊Greenplum的那些事

开卷有益——作者的话 有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就

2016-12-11 23:42:24 28915 8

原创 Datax3.0的安装和基本使用

安装过程: 1、先解压datax的安装包[root@slave1 datax]# tar -xvf datax.tar.gz 2、个datax的安装路径授权[root@slave1 datax]# chmod -R 775 ./datax3、测试样例[root@slave1 bin]# python datax.py ../job/job.jsonDataX (DATAX-OPENSOURCE-3

2016-12-10 23:56:10 12518 3

原创 linux 中crontab的使用

问题: 1、crontab是什么 2、crontab的各个参数表是什么 3、crontab的命令参数 3、crontab的样例 4、crontab的 5、>/dev/null 2>&1 的意思1、crontab概念 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。 cron 系统调度进程。 可以

2016-12-10 18:17:46 818

转载 阿里云开源离线同步工具DataX3.0介绍

一. DataX3.0概览​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负

2016-12-08 22:43:39 5417 3

原创 Centos6.5安装kettle6.1

kettle下载 url https://sourceforge.net/projects/pentaho/files/Data%20Integration/默认大家都已经安装好了jdk[kettle@SZB-L0038784 opt]$ java -versionjava version "1.7.0_45"OpenJDK Runtime Environment (rhel-2.4.3.3.e

2016-12-07 17:04:49 4258

转载 Apache kafka 工作原理介绍

消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行–它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是

2016-12-06 22:37:30 1065

原创 实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算

2016-12-06 00:03:58 6370

原创 Linux中nc的安装

在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程 其实安装很简单只需输入命令[root@SZB-L0032015 ~]# yum install -y nc[root@SZB-L0032015 ~]# yum install -y ncLoaded plugins: fastestmirror, refresh-packagekit, secu

2016-12-02 07:47:30 47894 1

原创 Spark Streaming编程一

Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。 它的工作流程像下面的图所示一样,接受到实时数据后,给

2016-12-02 07:41:26 629

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除