GaryLea-CSDN博客

原创 Sqoop导出Hive数据到Mysql时异常问题解决

3. 更换导数组件，不使用sqoop，采用datax/spark/flink等。4. 添加参数 columns 字段，将导出的每张表字段进行固定。因为sqoop不再维护，因此有两种方案。

2022-09-08 17:59:54 1890

原创解决集群长时间运行后无法正常关闭问题

解决hadoop长时间运行无法正常关闭问题

2022-08-02 12:24:22 667

背景之前博客中有讲怎么配置hadoop的HA，在工作中，我因要进行数据治理组件的探究，所以需要部署一个测试集群来测试一下数据治理相关组件的集成，可能是因为测试集群比生产环境的配置要低，所以遇到了之前没有遇到的问题，比如HA配置后，NN一直频繁切换自动故障转移配置vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml<property> <name>dfs.ha.automatic-failo

2022-05-09 11:09:42 993

原创 MaxWell监控本地数据库/RDS数据库的配置与使用

MaxWell监控本地数据库/RDS数据库的配置与使用背景：maxwell的核心原理是根据mysql的binlog，模拟mysql的从机，通过监控binlog的变化来进行数据的同步传输工作步骤：maxwell监控指定目标的mysql数据库，写入数据到kafka/redis，通过传输工具进行同步更新数据第一步安装# 备注 maxwell1.30不支持java8# 下载 https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxw

2022-04-01 11:55:53 1803

原创打怪升级之小白的大数据之旅(七十四)＜初识Kafka＞

打怪升级之小白的大数据之旅(七十四)初识Kafka引言学完Flume之后，接下来将为大家带来Kafka相关的知识点，在工作中，Kafka和Flume经常会搭配使用，那么Kafka究竟是什么呢？让我们开始今天的内容吧Kafka地图惯例，首先介绍kafka整个知识点的脉络，然后再详细为大家带来详细的知识点kafka概述kafka是什么？有什么应用场景，它的架构是什么?kafka常用shell指令如何操作kafkakafka原理kafka它究竟是怎么实现的消息发送流程

2021-07-01 18:42:53 155

原创打怪升级之小白的大数据之旅(七十三)＜Flume高级＞

打怪升级之小白的大数据之旅(七十三)Flume高级上次回顾上一章介绍了Flume的内部原理，本章就Flume的扩展知识进行讲解，本章的重点就是了解并学会使用Flume的自定义组件自定义组件在上一章介绍了内部原理，所以下面我们就可以根据内部原理来制定自定义的组件，例如上一章说的Channel选择器中的多路复用，就是需要搭配自定义拦截器Interceptor来使用自定义 Interceptor在实际开发中，自定义拦截器算是我们比较常用的手段，它可以配合channel选择器来将我们的日志信息分类存储

2021-06-24 08:12:31 324

原创打怪升级之小白的大数据之旅(七十二)＜Flume进阶＞

打怪升级之小白的大数据之旅(七十二)Flume进阶上次回顾上一章对Flume的基础知识点进行了分享，有了上一章的铺垫，本章就深入学习一下Flume的进阶知识点Flume事务Flume既然是针对海量数据传输的框架，它最主要的工作自然就是数据的传输，为了确保数据的完整性，Flume内部会有一个事务机制，用于保证数据再传输过程中的完整、正确性上图就是Flume包含事务的架构图，图中我们可以看到，Flume由两部分组成Source端的事务 Put事务doput 将批数据先写入到临时缓冲区put

2021-06-19 09:00:23 153

原创打怪升级之小白的大数据之旅(七十一)＜Hadoop生态：初识Flume＞

打怪升级之小白的大数据之旅(七十一)Hadoop生态：初识Flume上次回顾上一章，我们学习完了hive的内容，本章开始是Hadoop中经常使用的另外一个框架 Flume初识Flume下面这个是flume的标志flume的中文是水槽，但我觉得将它音译为浮木更加贴切官方对Flume的解释是这样的：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单我对Flume的理解：水流就像数据的传输过程(想象IO流

2021-06-16 18:17:10 257 6

原创打怪升级之小白的大数据之旅(七十)＜Hive旅程终点站:Hive的综合案例＞

打怪升级之小白的大数据之旅(七十)Hive旅程终点站:Hive的综合案例

2021-06-14 10:54:10 150

原创打怪升级之小白的大数据之旅(六十九)＜Hive旅程第十站:Hive的优化＞

打怪升级之小白的大数据之旅(六十九)Hive旅程第十站:Hive的优化上次回顾总结

2021-06-10 16:09:34 233

原创打怪升级之小白的大数据之旅(六十八)＜Hive旅程第九站:Hive的压缩与存储＞

打怪升级之小白的大数据之旅(六十八)Hive旅程第九站:Hive的压缩与存储上次回顾上一章，我们学习完了hive的函数相关操作，到此，我们hive的大的知识点就全部介绍完毕了，当然了，还有一些细节我没有讲到，大家可以私信我或者去官网看看说明文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC本章和下一章的内容与Hadoop学习一样，我将优化部分拆分成两块，把压缩和存储单独抽出来，然后再是其他在工作中遇到的一些优

2021-06-06 15:07:37 143

原创打怪升级之小白的大数据之旅(六十七)＜Hive旅程第八站:Hive的函数＞

打怪升级之小白的大数据之旅(六十七)Hive旅程第七站:Hive的函数

2021-06-05 16:15:08 314 2

原创打怪升级之小白的大数据之旅(六十六)＜Hive旅程第七站:Hive的分区表与分桶表＞

打怪升级之小白的大数据之旅(六十六)Hive旅程第七站:Hive的分区表与分桶表

2021-06-03 11:38:30 88 2

原创打怪升级之小白的大数据之旅(六十五)＜Hive旅程第六站:Hive的查询＞

打怪升级之小白的大数据之旅(六十五)Hive旅程第六站:Hive的查询

2021-06-02 08:22:51 267

原创打怪升级之小白的大数据之旅(六十四)＜Hive旅程第五站:DML基本操作＞

打怪升级之小白的大数据之旅(六十四)Hive旅程第五站:DML基本操作

2021-06-01 11:11:10 111

原创打怪升级之小白的大数据之旅(六十三)＜Hive旅程第四站:DDL操作＞

打怪升级之小白的大数据之旅(六十三)Hive旅程第四站:DDL操作

2021-05-31 08:32:40 149

原创打怪升级之小白的大数据之旅(六十二)＜Hive旅程第三站:Hive数据类型＞

打怪升级之小白的大数据之旅(六十二)Hive旅程第三站:Hive数据类型

2021-05-30 15:47:17 124

原创打怪升级之小白的大数据之旅(六十一)＜Hive旅程第二站:Hive安装＞

打怪升级之小白的大数据之旅(六十一)Hive旅程第二站:Hive安装上次回顾上一章我们学习了Hive的概念以及框架原理，本章节是对Hive的安装进行分享，因为它有些需要自己配置的点，所以我单独开了一个章节Hive 安装前期的准备：Hive是基于Hadoop，所以我们在Hadoop集群的基础上进行的，我们的环境如果跟着我Hadoop的操作一般是没有什么问题的。为什么要安装Mysql？Hive内部的元数据是存储在 derby中，我们可以将derby理解为Hive内部自带的数据库因为derb

2021-05-29 08:26:54 149 2

原创打怪升级之小白的大数据之旅(六十)＜Hive旅程中的始发站＞

打怪升级之小白的大数据之旅(六十)Hive旅程中的始发站引言经过了前面Hadoop、MR、Java、MySQL以及Linux的洗礼，接下来我们就要进入到大数据中特别重要的一个知识点学习–Hive,Hive是我们大数据日常工作中必不可少的一个技能，基本上许多有大数据部门的公司他们雇佣的大数据工程师就是利用Hive来完成他们的日常工作…既然Hive这么重要，那么我们应该怎么学好它呢？别急，跟着我一起进入Hive的旅程吧Hive始发站—Hive的地图博客已经写到了第六十期了，看过我前面博客的小伙

2021-05-28 18:31:01 161

原创打怪升级之小白的大数据之旅(五十九)＜Hadoop优化方案＞

打怪升级之小白的大数据之旅(五十八)Hadoop优化方案与扩展知识点

2021-05-27 09:26:07 151 2

原创打怪升级之小白的大数据之旅(五十八)＜HadoopHA＞

打怪升级之小白的大数据之旅(五十八)HadoopHA高可用上次回顾上一章，我们学习了Hadoop扩展内容–压缩的相关知识，本章为大家带来Hadoop的另一个扩展内容HA高可用技术，有了它，我们就再也不怕HDFS的NameNode泵机导致数据丢失了…HA概述HA的意思就是高可用，即7*24小时不中断服务，有了它996什么的弱爆了实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA为什么要使用HA还记得前面介绍HDFS的时候，提到过N

2021-05-26 15:56:27 197 9

原创打怪升级之小白的大数据之旅(五十七)＜Hadoop压缩＞

打怪升级之小白的大数据之旅(五十七)Hadoop压缩与HA

2021-05-25 08:16:16 141

原创打怪升级之小白的大数据之旅(五十六)＜Zookeeper内部原理＞

打怪升级之小白的大数据之旅(五十六)Zookeeper内部原理上次回顾上一章介绍了操作zookeeper的两种方式，shell和代码，然后通过一个实例动态上下线来体验zookeeper的魅力，本章节是对zookeeper的内部原理进行分享，zookeeper的内部原理比较重要的就是监听器原理和选举机制，让我们开始吧~~zookeeper内部原理节点类型在上一章的动态上下线案例我们用过临时节点，这下来详细说明一下zookeeper的节点zookeeper的节点分成两大类，一类是持久化节点和临时

2021-05-24 08:37:02 144 4

原创打怪升级之小白的大数据之旅(五十五)＜Zookeeper命令行与API应用＞

打怪升级之小白的大数据之旅(五十五)Zookeeper命令行与API应用上次回顾上一章，我们对zookeeper的基本概念以及环境搭建进行了学习与配置，有了环境，接下来就正式操作zookeeper啦zookeeper实战zookeeper和HDFS一样，同样分为命令行和客户端操作两种方式，主要就是各种命令和API的调用，大家需要的时候查看这篇博客即可命令行操作命令基本语法功能描述help显示所有操作命令ls path 使用 ls 命令来查看当前znode的子节点-

2021-05-23 16:49:53 1000 16

原创打怪升级之小白的大数据之旅(五十四)＜Zookeeper概述与部署＞

打怪升级之小白的大数据之旅(五十四)Zookeeper概述与部署上次回顾上一章，我们学习了Hadoop的最后一个模块–Yarn，然后我对整个Hadoop进行了总结，如果大家对我串讲的知识点有更好的理解，欢迎私信我哈本章节开始学习zookeeper，zookeeper我会分为三个部分第一部分是基本概述和环境配置第二部分是具体的使用，它和HDFS一样；通过命令行和代码两种方式第三部分是内部原理的分享，老样子，知道了底层的原理可以更好分辅助我们了解这个框架Zookeeper概述初识zo

2021-05-22 11:12:08 190 2

原创打怪升级之小白的大数据之旅(五十三)＜Hadoop最后一个模块--Yarn＞

打怪升级之小白的大数据之旅(五十三)Hadoop最后一个模块–Yarn上次回顾上一章，我们学完了整个MapReduce的知识点，至此，Hadoop的三大模块就剩下最后一个模块–Yarn了YarnYarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，MapReduce等运算程序相当于运行于操作系统之上的应用程序Yarn就类似我们的Windows系统，我们的MapReduce就像我们的软件，它是运行在Yarn上的，了解清楚这个之后，我们再回想一下Hadoop集

2021-05-21 15:11:50 428 15

原创打怪升级之小白的大数据之旅(五十二)＜MapReduce框架总结与扩展知识点＞

打怪升级之小白的大数据之旅(五十一)MapReduce框架总结与扩展知识点上次回顾上一章对MapReduce的最后一个模块OurputFormat进行了学习，然后我们又学习了一下如何通过MapReduce来完成数据的连接操作，本章，是MapReduce的最终章，我在写本章的时候，发现前面忘记介绍MpaTask与ReduceTask了，所以本章补上哈，另外还有两个扩展的知识点，讲完这些，我会对整个MapReduce进行总结一下，让大家再次了解MapReduce的工作流程，更加清晰地认识MapReduce

2021-05-20 09:37:22 159 2

打怪升级之小白的大数据之旅--hive测试数据

Myemployees.sql

空空如也