象在舞-CSDN博客

原创终章：蜕变，破茧成蝶！

从零开始论述大数据相关的知识，包括：理论、示例以及代码等！涉及到的大数据组件有Hadoop、Zookeeper、Hive、Flume、Kafka、HBase、Sqoop、Oozie、Kylin、Impala、Kettle、Spark、Flink、CDH等等。集合，准备团战！终于来到我们的最终章了，快来跟我一起蜕变，破茧成蝶吧！

2021-01-05 16:18:37 3120 4

1、什么是序列序列（SEQUENCE）是序列号生成器，可以为表中的行自动生成序列号，产生一组等间隔的数值（类型为数字）。不占用磁盘空间，占用内存。其主要用途是生成表的主键值，可以在插入语句中引用，也可以通过查询检查当前值，或使序列增至下一个值。2、序列的创建创建序列需要CREATE SEQUENCE系统权限。序列的创建语法如下：CREATE SEQUENCE 序列名　　[INCREMENT BY n]　　[START WITH n]　　[{MAXVA...

2021-07-19 18:43:07 4713

原创 Oracle中的触发器（trigger）

1、触发器的定义数据库触发器是一个与表相关联、存储PL/SQL语句的“东西”。每当一个特定的数据操作语句（insert、update、delete）在指定的表上发出时，Oracle自动执行触发器中定义的语句序列。例如：当员工信息插入后，自动输出“插入成功”的信息。create or replace trigger empTrigger after insert on emp for each rowdeclare -- 这里存放本地变量begin dbms_outpu...

2021-07-19 17:05:07 5554 5

原创八十二、ElasticSearch详解（下）

上一篇文章我们通过搜索原理来看了一下ElasticSearch，本文我们主要从数据结构、Mapping、文档操作入手看一下ElasticSearch是如何使用的。...

2021-06-16 09:54:15 2211 1

原创八十一、ElasticSearch详解（中）

上一篇文章我们着重从ElasticSearch的操作工具、存储方式以及检索等方面触发介绍了一下ElasticSearch的使用，本文我们从搜索原理、数据类型以及文档操作等方面入手继续看一下ElasticSearch是如何使用的。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、ElasticSearch搜索原理1.1正排索引和倒排索引正排索引记录文档id到文档内容、单词的关联关系。正排索引表是以文档的ID为关键字，表中记录文档中每个字段的值信息，主要场景是通...

2021-06-10 11:27:11 1100 1

原创八十、ElasticSearch详解（上）

上一篇文章我们主要介绍了一下ElasticSearch以及如何安装部署单机版本的ElasticSearch。本文我们来详细看一下它的原理以及它是如何使用的。

2021-06-08 10:54:34 706

原创七十九、ElasticSearch的简介与安装

本文我们来看一下一个非常常用的搜索引擎——ElasticSearch。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、ElasticSearch的概述1.1ElasticSearch的简介1.2ElasticSearch的特点1.3同类产品的对比二、ElasticSearch的安装2.1环境准备2.2单机安装一、ElasticSearch的概述1.1ElasticSearch的简介 Elasticsearch是一...

2021-06-07 15:56:46 1120 2

原创七十八、Kettle的几个使用案例

上一篇文章我们介绍了一下Kettle以及Kettle的安装部署，本文我们来具体看几个例子，看看Kettle是怎样使用的。使用示例我们基于Windows安装的Kettle进行演示说明。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、案例一1、需求把stu1的数据按id同步到stu2，stu2有相同id则更新数据。2、在MySQL中创建两张表并插入一些数据create table stu1(id int,name varchar(20),age int);create tabl

2021-05-31 09:48:44 6166

原创七十七、Kettle的简介与安装部署

本文我们来介绍一个非常好用的开源ETL工具——Kettle，它是纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Kettle的简介1.1什么是KettleKettle是一个Java编写的ETL工具，主作者是Matt Casters，2003年就开始了这个项目，最新稳定版为7.1。2005年12月，Kettle从2.1版本开始进入了开源领域，一直到4.1版本遵守LGPL协议，从4.2版本开始.

2021-05-28 13:26:30 4745

原创七十六、ClickHouse的表引擎以及SQL语法

上一篇文章我们介绍了一下ClickHouse的安装，这一篇我们主要来看一下它的表引擎已经SQL语法。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、ClickHouse的数据类型在介绍表引擎和SQL语法之前，我们先来看一下它的数据类型。常用的数据类型如下所示：1、整型。固定长度的整型，包括有符号整型（-2n-1~2n-1-1）和无符号整型（0~2n-1）。2、浮点型。建议尽可能以整数形式存储数据。例如，将固定精度的数字转换为整数值，如时间用毫秒为单位表示，因为浮点型进行计算时可能引

2021-05-26 10:32:54 1001

原创七十五、ClickHouse的简介与安装

ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。本文我们主要看一下它的安装，分为单机模式与分布式模式。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、ClickHouse的概述1.1ClickHouse的简介1.2ClickHouse的特点二、ClickHouse的安装2.1单机模式2.2分布式安装一、ClickHouse的概述1.1...

2021-05-24 14:08:17 618

原创七十四、Hue的简介以及安装使用

本文我们来看一个大数据的UI系统——Hue，因为其使用比较简单，我们用一篇文章简单的介绍一下它的安装与使用。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Hue的简介二、Hue的安装三、Hue的使用一、Hue的简介Hue（Hadoop User Experience，Hadoop用户体验），直白来说就一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基

2021-05-21 11:13:13 4318 2

原创七十三、Impala的常用操作

上一篇文章我们简单介绍了一下Impala以及如何安装部署Impala，本文我们从Impala的数据类型、DDL、DML、函数等方面来看一下Impala是如何操作的。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Impala的数据类型Impala与Hive的数据类型对比如下所示： Hive数据类型 Impala数据类型长度 TINYINT TINYINT 1byte有符号

2021-05-17 14:31:19 5152 1

原创七十二、Impala的简介与安装部署

咱们前面几篇文章穿插了些CDH的内容，因为咱们的Impala的安装是基于CDH的，所以提前将如何部署安装CDH讲解了一下。本文我们来看一下Impala的相关知识。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Impala概述1.1Impala是什么Impala是由Cloudera公司推出，提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询。它基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点，是CDH平台首选的PB级大数据实时查询分析引擎。.

2021-05-14 14:59:31 2412 2

原创六十六、Kylin对接JDBC和Zepplin

本文我们来看一下Kylin如何对接JDBC，以及如何集成到Zepplin中。自定义编码可以实现更多的业务逻辑，而Zepplin是一个非常好用的编辑器工具。本文也是整个Kylin部分的最后一篇文章，关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Kylin对接JDBC二、Kylin集成Zepplin2.1安装Zepplin2.2配置Zepplin支持Kylin一、Kylin对接JDBC1、创建项目并导入依赖 <dependencies> ..

2021-05-12 11:06:37 1144 2

原创六十五、Kylin Cube的构建

上一篇文章，我们通过一个简单的例子初步使用了一下Kylin这个组件，这篇文章我们来看下Cube的具体构建流程。

2021-05-11 10:06:58 1145 3

原创六十四、Kylin的初体验

上一篇文章我们介绍了Kylin以及Kylin的安装，本文我们通过一个简单的例子来初探一下Kylin的使用。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、需求分析二、数据准备三、创建Kylin项目3.1登录系统3.2创建项目3.3选择数据源3.4创建Model3.5创建Cube一、需求分析需求：现有员工信息和部门信息两个文件，实现按照部门统计员工工资。二、数据准备1、将数据文件上传到服务器中，其目录与数据大体如下图所示：2、...

2021-05-08 14:07:26 847 4

原创六十三、Kylin的简介与安装

前面我们分别介绍了两个工作流调度系统——Oozie和Azkaban，本文我们来看一下一个全新的组件——Kylin。

2021-05-07 08:57:42 1464 4

原创六十二、Azkaban使用示例

上一篇文章我们简单介绍了一下Azkaban以及怎样安装部署Azkaban，本文我们通过几个案例来看一下怎样使用Azkaban。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Azkaban调度单一job1、创建job文件type=commandcommand=echo 'This is first Azkaban job.'这里需要注意的是，job文件的后缀必须为.job，且需要将保存好的文件压缩成.zip格式，作业名称在项目中必须是唯一的。2、启动Azkaban，并创建.

2021-04-29 09:45:20 1894 4

原创六十一、Azkaban的简介与安装

一个完整的数据分析系统通常都是由大量任务单元组成，例如：shell脚本，Java程序，MapReduce程序、Hive脚本等，各任务单元之间存在时间先后及前后依赖关系，为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。类似于Oozie，Azkaban便是一个工作流调度的组件。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Azkaban简介1.1什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特.

2021-04-25 15:16:35 2533 5

原创六十、Oozie的使用示例

上一篇文章我们简单介绍了一下Oozie以及怎样安装部署Oozie，本文我们通过几个案例来看一下怎样使用Oozie。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、Oozie调度shell脚本1、创建目录[root@master oozie-4.0.0-cdh5.3.6]# mkdir -p oozie-apps/shell2、在创建的shell目录下创建两个文件[root@master shell]# touch workflow.xml job.properties3

2021-04-19 09:12:46 1274 1

原创五十九、Oozie的简介与安装

Oozie是一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Oozie的简介1.1简介1.2模块1.3Workflow常用节点二、Oozie的安装部署2.1安装CDH版本的Hadoop2.1.1上传...

2021-04-16 08:58:45 1229 1

转载五十八、Sqoop的常用参数及命令

上一篇文章我们讲述了Sqoop的安装已经一些基本操作，本文我们主要来看看它常用的一些参数和命令。Sqoop是一个非常简单的传输工具，我们进行简单的讲述，不在这上面浪费过多的时间，本文是Sqoop部分的最后一篇文章。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Sqoop常用的命令二、Sqoop的公用参数2.1数据库连接参数2.2import参数2.3export参数2.4 hive参数三、Sqoop的特有参数3.1import3.2expor...

2021-04-14 08:57:42 2310

原创五十七、Sqoop的安装与使用

本文我们介绍一个非常好用的数据传输工具——Sqoop。Sqoop是一款开源的工具，主要用于在Hadoop与传统数据库间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle，Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。关注专栏《破茧成蝶——大数据篇》，

2021-04-12 09:00:49 782 1

原创五十六、HBase的优化

当一个组件到了优化部分的时候，基本上这个组件的内容就到了结尾部分了，本文我们给HBase收收尾，来讲一下HBase的优化。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、HBase的高可用在HBase中HMaster负责监控Region Server的生命周期，均衡Region Server的负载，如果HMaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。这里需要注意的是，如果HMaster挂掉，H

2021-04-08 15:18:12 2704 3

原创五十五、HBase与Hive集成

上篇文章我们讲述了HBase中的协处理器并通过一个简单的示例实现了数据同步插入的问题，本文我们来看一下HBase与Hive的集成。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、HBase与Hive集成的必要性二、HBase与Hive集成2.1 jar包拷贝2.2修改配置文件三、案例3.1案例一3.1.1需求说明3.1.2需求实现3.2案例二3.2.1需求说明3.2.2需求实现一、HBase与Hive集成的必要性Hive是建...

2021-04-01 08:29:15 2107 2

原创五十四、HBase的协处理器

在旧版本的（<0.92）HBase中无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。例如统计数据表的总行数，需要使用Counter方法，执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce，能够有效用于数据表的分布式计算。然而在很多情况下，做一些简单的相加或者聚合计算的时候，如果直接将计算过程放置在server端，能够减少通讯开销，从而获得更好的性能提升。于是，HBase在0.92之后引入了协处理器（coprocessors），从而实现了轻易建立二

2021-03-29 15:33:53 954 2

原创五十三、通过MapReduce实现HBase操作

通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将HBase表中的数据拷贝到另外一张表。本文我们通过两个案例来进行实操一下，关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、将HBase表数据复制到另外一张表1.1需求说明1.2编码实现1.3测试二、将HDFS的数据写入到HBase中2.1需求说明2.2编码实现2.3测试一、将HBase表数据复制到另外一张表1.1需求说...

2021-03-24 09:00:05 2872

原创五十二、HBase的API操作

前几篇文章我们介绍了HBase的原理以及安装部署、命令行操作等知识，本文我们来看一下HBase的API操作。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、环境准备二、HBaseAPI操作2.1获取HBase连接对象2.2判断命名空间是否存在2.3判断HBase中是否存在某张表2.4创建表2.5操作表2.6删除表2.7删除表数据三、完整代码一、环境准备首先需要新建工程并导入相关的依赖，如下所示： <de...

2021-03-19 09:34:36 1595

原创五十一、HBase的原理

上一篇文章我们介绍了如何部署HBase以及HBase常用的命令行操作，本文我们从HBase的读写流程出发来看一下HBase的原理。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、HBase的架构二、HBase的读数据流程三、HBase的写数据流程四、数据flush的过程五、数据合并（compaction）过程一、HBase的架构尽管在前文中我们已经说过HBase的架构了，但是为了加深印象，我们这里再唠叨一下，他的架构图如下所示：HMaster用于管理整个

2021-03-18 09:34:41 1597 3

原创五十、HBase的安装以及命令行操作

上一篇文章我们从HBase的特点、架构和数据结构出发介绍了一下HBase，本文我们来看看如何部署HBase以及它的命令行操作。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、HBase安装部署1.1环境准备1.2安装包准备1.3修改配置文件1.4分发1.5启动HBase二、命令行操作一、HBase安装部署1.1环境准备因为HBase依赖于Zookeeper，所以在安装部署HBase之前，必须启动Zookeeper集群。1.2安装包准...

2021-03-17 09:12:07 2008 3

原创四十九、HBase介绍

传统的RDBMS关系型数据库（例如SQL）存储一定量数据时进行数据检索没有问题，可当数据量上升到非常巨大规模的数据（TB或PB）级别时，传统的RDBMS已无法支撑，这时候就需要一种新型的数据库系统更好更快的处理这些数据，我们可以选择HBase。本文主要是对HBase进行的一个简单介绍，包括HBase的特点、架构以及数据结构。

2021-03-15 09:00:58 1665 4

原创四十八、Kafka的监控工具

今天我们来介绍几个Kafka的监控工具，这部分做一下了解即可，因为现在的大数据平台都有自己的监控界面，可以从监控界面上监控Kafka，只有在单独使用ApacheKafka集群的时候才会用到咱们本章讲解的监控工具，这种业务场景就现在来说已经不多了，所以本文只做了解即可，不用过多的深究，到时候会有专门的大数据监控平台。同时，这也是Kafka部分的最后一章了，关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~文中涉及到的监控工具，均可通过此处进行下载~目录一、KafkaMonitor二、K..

2021-03-11 16:07:23 2993 3

原创四十七、Kafka中的拦截器（Interceptor）

前两篇文章我们分别介绍了Kafka生产者和消费者的API，本文我们介绍一下Kafka中拦截器的知识。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、拦截器介绍二、拦截器案例2.1需求2.2代码实现2.3测试一、拦截器介绍Kafka Producer拦截器（Interceptor）主要用于实现clients端的定制化控制逻辑。对于Producer而言，Interceptor使得用户在消息发送前以及Producer回调逻辑前有机会对消息做一些定制化需求，比如修...

2021-03-10 08:58:04 2742 6

原创四十六、Kafka消费者（Consumer）API介绍

有生产者的API自然也就会有消费者的API，上篇文章我们通过几个简单的编码学习了Kafka生产者的API，本文我们来看一下消费者的API。Consumer消费数据时的可靠性是很容易保证的，因为数据在Kafka中是持久化的，故不用担心数据丢失问题。由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。所以offset的维护是Consumer消费数据是必须考虑的问题。下

2021-03-08 09:55:37 5087 8

原创四十五、Kafka生产者（Producer）API介绍

前几篇文章我们主要介绍了一些理论上的知识，下面我们来实操一下，本文主要讲解Kafka生产者的API。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main线程和Sender线程，以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator，Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。

2021-03-05 10:00:34 2218 4

原创四十四、Kafka的架构

上篇文章主要介绍了Kafka的安装部署，以及一些简单的命令行操作。本文我们来深入的研究一下Kafka的架构，关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~目录一、Kafka工作流程二、Kafka文件存储机制三、Kafka生产者3.1分区策略3.1.1分区的原因3.1.2分区的原则3.2数据可靠性3.2.1副本同步策略3.2.2 ack应答机制3.2.3故障处理3.3ExactlyOnce语义四、Kafka消费者4.1消费方式...

2021-03-03 09:34:29 1610 1

原创四十三、Kafka的安装部署与基本操作

上篇文章我们简单介绍了一下Kafka相关的知识，这篇文章我们来实际的安装一下Kafka并进行一下简单的操作。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~一、安装Kafka1.1安装包准备首先需要去Kafka的官网下载Kafka的安装包，请戳这里进行下载。将下载的好的tar包上传到服务器中，这里我们放到/opt/software目录下：1.2解压解压安装包，并修改名称为kafka：tar -zxvf ./kafka_2.11-0.11.0.2.tgz -C ..

2021-03-01 09:05:53 5947 2

原创四十二、Kafka的介绍

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了同时搞定在线应用（消息）和离线应用（数据文件，日志）Kafka就出现了。Kafka可以起到两个作用：（1）降低系统组网复杂度。（2）降低编程复杂

2021-02-25 08:49:23 5692 4

原创 TDH中的Transporter

Transporter是一个数据etl工具，支持从不同数据源获取数据，对数据的复杂转换操作，并最终将数据落地成不同格式。Transporter左侧连接数据源，如关系型数据库，右侧连接目标系统，如Inceptor。支持用户将数据从RDBMS迁移到Hadoop，再进行数据分析和挖掘工作。关注专栏《Transwarp系列》了解更多Transwarp的技术知识~

2021-02-22 15:36:14 2993 2

hadoop环境搭建

Kafka监控工具.zip

mysql57-community-release-el6-8.noarch.rpm

rzsz3.48.zip

空空如也