![](https://img-blog.csdnimg.cn/20200414231621954.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flume、Hue、Azkaban、Sqoop
文章平均质量分 81
Flume、Hue、Azkaban、Sqoop学习记录
默默走开
待我荣耀归来,我娶你可好?
展开
-
【GP】Greenplum入门解析(二)
Greenplum与Hive在使用上的的差异总结1、字段拼接Greenplum 字段拼接使用的是 ||Hive 字段拼接使用的是 concat / concat_ws2、类型转换Greenplum 类型转换使用的是 ::Hive 类型转换使用的是 CAST(字段 AS 类型)未完待续…...原创 2020-07-22 16:32:46 · 1797 阅读 · 0 评论 -
【PostgreSQL】PostgreSQL入门解析
本章内容主要来源于网络各种渠道,侵删!一、表的定义【1】创建表create table 表名( 字段 类型, 字段 类型, ....);【2】删除表drop table 表名;【3】创建有自增、缺省值的表create table 表名( 字段 类型 serlar, -- serlar类型的字段表示该字段为自增字段 字段 类型 default 值, -- default是关键字,后面的值代表字段的默认值 ....);【4】约束1、ch.原创 2020-07-22 11:50:36 · 1290 阅读 · 0 评论 -
【GP】Greenplum入门解析(一)
一、Greenplum概述【1】Greenplum简介Greenplum(以下简称GP)是一款开源数据仓库。基于开源的PostgreSQL改造,主要用来处理大规模数据分析任务,相比Hadoop,Greenplum更适合做大数据的存储、计算和分析引擎GP是典型的Master/Slave架构,在GP集群中,存在2个Master节点(一个Primary节点和一个Standby)和多个Segment节点,其中每个节点上可以运行多个数据库。GP采用shared nothing架构(MPP)。是典型的Shared原创 2020-07-21 17:32:09 · 6312 阅读 · 2 评论 -
【Git】Git入门解析
一、Git概述1、版本控制工具应该具备的功能【1】协同修改多人并行不悖的修改服务器端的同一个文件【2】数据备份不仅保存目录和文件的当前状态,还能够保存每一个提交过的历史状态【3】版本管理在保存每一个版本的文件信息的时候要做到不保存重复数据,以节约存储空间,提高运行效率。这方面 SVN 采用的是增量式管理的方式,而 Git 采取了文件系统快照的方式【4】权限控制对团队中参与开发的人员进行权限控制对团队外开发者贡献的代码进行审核——Git 独有【5】历史记录查看修改原创 2020-06-02 15:41:40 · 1885 阅读 · 0 评论 -
【Kylin】Kylin入门解析(二)
(图片来源于网络,侵删)一、可视化可以与Kylin结合使用的可视化工具很多,例如:ODBC:与Tableau、Excel、PowerBI等工具集成JDBC:与Saiku、BIRT等Java工具集成RestAPI:与JavaScript、Web网页集成Kylin开发团队还贡献了Zepplin的插件,也可以使用Zepplin来访问Kylin服务【1】JDBC1)新建项目并导入依赖<dependencies> <dependency> .原创 2020-06-01 10:56:13 · 2738 阅读 · 0 评论 -
【Kylin】Kylin入门解析(一)
(图片来源于网络,侵删)一、Kylin 概述1.Kylin 简介Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表2.Kylin 架构1)REST ServerREST Server 是一套面向应用程序开发的入口点,旨在实现针对 Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发原创 2020-05-14 14:42:44 · 2848 阅读 · 0 评论 -
【Superset】Superset入门解析
(图片来源于网络,侵删)一、Superset概述1、Superset简介Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用2 Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具二、Superset安装Superset 官网地址:http://superset.apache.原创 2020-05-10 22:37:24 · 3285 阅读 · 3 评论 -
【Azkaban】Azkaban入门解析
一、Azkaban概述Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程;Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流二、Azkaban的功能特点1、提供功能清晰,简单易用的Web UI界面2、方便上传工作流3、提供job配置文件快速建立任务和任务之...原创 2019-12-07 18:51:36 · 7349 阅读 · 12 评论 -
【Flume】Flume入门解析(二)
(图片来源于网络,侵删)一、案例实战【1】Flume故障转移(failover)Failover Sink Processor能够实现failover功能,具体流程类似load balance,但是内部处理机制与load balance完全不同Failover Sink Processor维护一个优先级Sink组件列表,只要有一个Sink组件可用,Event就被传递到下一个组件。故障转...原创 2020-04-22 09:02:30 · 3198 阅读 · 0 评论 -
【Kettle】Kettle入门解析(五)
(图片来源于网络,侵删)都看到这里了,点赞评论一下吧!!!原创 2020-04-21 15:16:47 · 4029 阅读 · 2 评论 -
【Kettle】Kettle入门解析(四)
(图片来源于网络,侵删)Kettle实战1(增加序列 json2hdfs)部分原始数据:user.json如下结果如下????Kettle实战2(字段选择 json2hdfs)部分原始数据:user.json如下结果如下????Kettle实战3(switch json2excel)结果如下????Kettle实战4(笛卡尔积 ...原创 2020-04-21 12:02:14 · 3519 阅读 · 1 评论 -
【Kettle】Kettle入门解析(三)
(图片来源于网络,侵删)Kettle实战1(将csv数据输出为Excel数据)原始数据: user.csv ????转换后数据: user.xls ????Kettle实战2(将json数据输出为Excel数据)部分原始数据: user.json ????...原创 2020-04-20 23:15:41 · 4119 阅读 · 1 评论 -
【Kettle】Kettle入门解析(二)
(图片来源于网络,侵删)Kettle实战(将Hive表的数据输出到Hdfs)【1】环境准备1)进入Kettle的plugins\pentaho-big-data-plugin目录,编辑plugin.properties文件根据自己的hadoop版本添加不同的类型,我的是cdh的,所以添加cdh514有哪些版本可以在该目录下查看plugins\pentaho-big-data-pl...原创 2020-04-20 20:58:44 · 5427 阅读 · 4 评论 -
【Kettle】Kettle入门解析(一)
(图片来源于网络,侵删)一、Kettle概述【1】什么是Kettle?Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定【2】Kettle核心知识1)Kettle工程存储方式1、以XML形式存储2、以资源库方式存储(数据库资源库和文件资源库)2)Kettle的两种设计3)Kettle的组成...原创 2020-04-20 11:46:59 · 6587 阅读 · 9 评论 -
【Sqoop】Sqoop入门解析
一、概述Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令...原创 2019-11-29 09:53:56 · 7223 阅读 · 6 评论 -
【Elasticsearch】Elasticsearch学习解析
Elasticsearch学习,请先看这一篇! ...转载 2020-02-28 16:41:50 · 4906 阅读 · 0 评论 -
【Flume】Flume入门解析(一)
1. 什么是flume?apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中2. 安装步骤1.将Flume安装包上传至集群2.解压tar...原创 2019-12-05 11:11:13 · 6107 阅读 · 4 评论