2021年05月_象在舞

07月 06月 05月 04月 03月 02月 01月

原创七十八、Kettle的几个使用案例

上一篇文章我们介绍了一下Kettle以及Kettle的安装部署，本文我们来具体看几个例子，看看Kettle是怎样使用的。使用示例我们基于Windows安装的Kettle进行演示说明。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、案例一1、需求把stu1的数据按id同步到stu2，stu2有相同id则更新数据。2、在MySQL中创建两张表并插入一些数据create table stu1(id int,name varchar(20),age int);create tabl

2021-05-31 09:48:44 5438

原创七十七、Kettle的简介与安装部署

本文我们来介绍一个非常好用的开源ETL工具——Kettle，它是纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Kettle的简介1.1什么是KettleKettle是一个Java编写的ETL工具，主作者是Matt Casters，2003年就开始了这个项目，最新稳定版为7.1。2005年12月，Kettle从2.1版本开始进入了开源领域，一直到4.1版本遵守LGPL协议，从4.2版本开始.

2021-05-28 13:26:30 4535

原创七十六、ClickHouse的表引擎以及SQL语法

上一篇文章我们介绍了一下ClickHouse的安装，这一篇我们主要来看一下它的表引擎已经SQL语法。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、ClickHouse的数据类型在介绍表引擎和SQL语法之前，我们先来看一下它的数据类型。常用的数据类型如下所示：1、整型。固定长度的整型，包括有符号整型（-2n-1~2n-1-1）和无符号整型（0~2n-1）。2、浮点型。建议尽可能以整数形式存储数据。例如，将固定精度的数字转换为整数值，如时间用毫秒为单位表示，因为浮点型进行计算时可能引

2021-05-26 10:32:54 903

原创七十五、ClickHouse的简介与安装

ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。本文我们主要看一下它的安装，分为单机模式与分布式模式。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、ClickHouse的概述1.1ClickHouse的简介1.2ClickHouse的特点二、ClickHouse的安装2.1单机模式2.2分布式安装一、ClickHouse的概述1.1...

2021-05-24 14:08:17 564

原创七十四、Hue的简介以及安装使用

本文我们来看一个大数据的UI系统——Hue，因为其使用比较简单，我们用一篇文章简单的介绍一下它的安装与使用。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Hue的简介二、Hue的安装三、Hue的使用一、Hue的简介Hue（Hadoop User Experience，Hadoop用户体验），直白来说就一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基

2021-05-21 11:13:13 4100 2

原创七十三、Impala的常用操作

上一篇文章我们简单介绍了一下Impala以及如何安装部署Impala，本文我们从Impala的数据类型、DDL、DML、函数等方面来看一下Impala是如何操作的。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Impala的数据类型Impala与Hive的数据类型对比如下所示： Hive数据类型 Impala数据类型长度 TINYINT TINYINT 1byte有符号

2021-05-17 14:31:19 4755 1

原创七十二、Impala的简介与安装部署

咱们前面几篇文章穿插了些CDH的内容，因为咱们的Impala的安装是基于CDH的，所以提前将如何部署安装CDH讲解了一下。本文我们来看一下Impala的相关知识。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Impala概述1.1Impala是什么Impala是由Cloudera公司推出，提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询。它基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点，是CDH平台首选的PB级大数据实时查询分析引擎。.

2021-05-14 14:59:31 2320 2

原创六十六、Kylin对接JDBC和Zepplin

本文我们来看一下Kylin如何对接JDBC，以及如何集成到Zepplin中。自定义编码可以实现更多的业务逻辑，而Zepplin是一个非常好用的编辑器工具。本文也是整个Kylin部分的最后一篇文章，关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Kylin对接JDBC二、Kylin集成Zepplin2.1安装Zepplin2.2配置Zepplin支持Kylin一、Kylin对接JDBC1、创建项目并导入依赖 <dependencies> ..

2021-05-12 11:06:37 1100 2

原创六十五、Kylin Cube的构建

上一篇文章，我们通过一个简单的例子初步使用了一下Kylin这个组件，这篇文章我们来看下Cube的具体构建流程。

2021-05-11 10:06:58 1082 3

原创六十四、Kylin的初体验

上一篇文章我们介绍了Kylin以及Kylin的安装，本文我们通过一个简单的例子来初探一下Kylin的使用。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、需求分析二、数据准备三、创建Kylin项目3.1登录系统3.2创建项目3.3选择数据源3.4创建Model3.5创建Cube一、需求分析需求：现有员工信息和部门信息两个文件，实现按照部门统计员工工资。二、数据准备1、将数据文件上传到服务器中，其目录与数据大体如下图所示：2、...

2021-05-08 14:07:26 804 4