Ying

个人博客:http://smartsi.club/

[AirFlow]AirFlow使用指南四 DAG Operator Task

1. DAG在Airflow中,DAG或有向无环图是你运行所有任务的集合,以某种组织方式来反映所有任务之间的关系和依赖。例如,一个简单的DAG可以包括三个任务:A,B和C.可以说A必须在B运行之前成功运行,但C可以随时运行。 可以说任务A在5分钟后超时,为防止失败,B可以最多重启5次。也可以说工作...

2017-08-03 20:02:28

阅读数:3615

评论数:1

[AirFlow]AirFlow使用指南三 第一个DAG示例

经过前两篇文章的简单介绍之后,我们安装了自己的AirFlow以及简单了解了DAG的定义文件.现在我们要实现自己的一个DAG. 1. 启动Web服务器 使用如下命令启用: airflow webserver 现在可以通过将浏览器导航到启动Airflow的主机上的8080端口来访问Airfl...

2017-08-03 12:00:25

阅读数:13703

评论数:6

[AirFlow]AirFlow使用指南二 DAG定义文件

1. Example""" Code that goes along with the Airflow tutorial located at: https://github.com/airbnb/airflow/blob/master/airflow/example...

2017-08-03 11:57:13

阅读数:5475

评论数:0

[AirFlow]AirFlow使用指南一 安装与启动

1. 安装通过pip安装:xiaosi@yoona:~$ pip install airflow 如果速度比较慢,可以使用下面提供的源进行安装:xiaosi@yoona:~$ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple airfl...

2017-08-02 18:23:30

阅读数:4212

评论数:7

[Zeppelin]Zeppelin安装与初体验

1.安装1.1 下载点击进入下载页面备注下载页面会提供两种二进制包:zeppelin-0.7.1-bin-netinst.tgz 默认只会提供Spark的Interpreterzeppelin-0.7.1-bin-all.tgz 会提供各种各样的Interpreter(MySQL,ElasticS...

2017-06-05 17:06:58

阅读数:4184

评论数:0

[Hadoop]MapReduce多路径输入与多个输入

1. 多路径输入FileInputFormat是所有使用文件作为其数据源的 InputFormat 实现的基类,它的主要作用是指出作业的输入文件位置。因为作业的输入被设定为一组路径, 这对指定作业输入提供了很强的灵活性。FileInputFormat 提供了四种静态方法来设定 Job 的输入路径:...

2017-01-11 14:33:06

阅读数:3183

评论数:0

[Hadoop]Reducer总是能复用为Combiner?

Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势:Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每...

2017-01-08 13:39:56

阅读数:936

评论数:0

[Hadoop]MapReduce中的Partitioner与Combiner

Partitioners负责划分Maper输出的中间键值对的key,分配中间键值对到不同的Reducer。Maper输出的中间结果交给指定的Partitioner,确保中间结果分发到指定的Reduce任务。在每个Reducer中,键按排序顺序处理(Within each reducer, keys...

2017-01-07 18:18:59

阅读数:2104

评论数:0

[Hadoop]MapReducer工作过程

1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。在shuffle阶段还会发生copy(复制)和sort(排序)...

2016-12-30 10:28:55

阅读数:5071

评论数:1

[Hadoop]Hadoop Archives

1. 什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part...

2016-12-26 21:19:16

阅读数:971

评论数:0

[Hadoop]大量小文件问题及解决方案

1. HDFS上的小文件问题小文件是指文件大小明显小于HDFS上块(block)大小(默认64MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用Hadoop(If you’re storing small files, then you probably have lots ...

2016-12-25 15:34:09

阅读数:14763

评论数:3

[Sqoop]Sqoop使用

Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usa...

2016-11-14 20:05:10

阅读数:13100

评论数:2

[Sqoop]Sqoop导入与导出

1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor.  Commands end with ; or \g.Your MySQL connection id ...

2016-11-13 19:59:43

阅读数:6083

评论数:0

[Sqoop]Sqoop安装

1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiao...

2016-11-13 16:13:48

阅读数:2029

评论数:0

[ElasticSearch2.x]Java API 之 索引管理

ElasticSearch为了便于处理索引管理(Indices administration)请求,提供了 org.elasticsearch.client.IndicesAdminClient接口。通过如下代码从 Client 对象中获得这个接口的实现: IndicesAdminClient ...

2016-10-11 20:33:29

阅读数:8569

评论数:4

[ElasticSearch]ElasticSearch插件之Head

1. 安装 1.1 不同版本安装方式不同 (1)Elasticsearch 5.x: site plugins are not supported. Run elasticsearch-head as a standalone server (2)Elasticsea...

2016-10-11 09:43:23

阅读数:2385

评论数:0

[Sqoop]Sqoop安装与部署

1. 下载 http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 2. 解压 xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -...

2016-10-08 15:52:32

阅读数:1047

评论数:0

[Presto]部署运行Presto

1. 安装Presto 下载Presto server tarball,presto-server-0.100.tar.gz,将它解压。 它包含一个顶级目录, presto-server-0.100,我们叫它安装目录。Presto需要一个用于存储日志、本地元数据等的数据目录。 建议在安装目录的外...

2016-09-30 16:16:11

阅读数:3396

评论数:0

[Presto]什么是Presto

1. Presto不是什么 虽然Presto一直被一些个人或者团体称为 数据库 ,但是Presto并不是数据库。 千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。Presto并不是传统意义上的数据库。Presto并不是MySQL、PostgreSQL或者Oracl...

2016-09-30 11:29:06

阅读数:3137

评论数:0

[Thrift]Apache Thrift入门Java实例

1. 概述 Apache Thrift 是 Facebook 实现的一种高效的、支持多种编程语言的远程服务调用的框架。本文将从 Java 开发人员角度详细介绍 Apache Thrift 的架构、开发和部署,并且针对不同的传输协议和服务类型给出相应的 Java 实例,同时详细介绍 Thrif...

2016-09-21 11:52:45

阅读数:6038

评论数:0

提示
确定要删除当前文章?
取消 删除