Hadoop
文章平均质量分 73
Lyle-liang
大数据,互联网金融交易
展开
-
Hive存储格式textfile转orcfile,并导出数据到另一hive集群
1. 在源hive数据库,创建一张orcfile格式的临时表CREATE TABLE `user_tmp`( `id` bigint, `created` string, `modified` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STORED AS orcfile;2. 在目标hive数据库,创建一张orcfile格式...原创 2018-05-30 14:28:45 · 7031 阅读 · 0 评论 -
Apache Hadoop、CDH、HDP、MapR区别
一、简述目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版...原创 2018-10-11 18:05:01 · 6232 阅读 · 0 评论 -
Hive SQL on where 优化
1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...原创 2018-11-13 16:10:47 · 2604 阅读 · 2 评论 -
Azkaban 总览
一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如...原创 2018-11-27 17:24:29 · 309 阅读 · 0 评论 -
Azkaban 3.62 安装
介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件: 1. 元数据数据库(目前仅支持my...原创 2018-11-27 18:13:06 · 2066 阅读 · 0 评论