自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 资源 (2)
  • 收藏
  • 关注

原创 Sqoop导出Hive数据到Mysql时异常问题解决

3. 更换导数组件,不使用sqoop,采用datax/spark/flink等。4. 添加参数 columns 字段,将导出的每张表字段进行固定。因为sqoop不再维护,因此有两种方案。

2022-09-08 17:59:54 1890

原创 解决集群长时间运行后无法正常关闭问题

解决hadoop长时间运行无法正常关闭问题

2022-08-02 12:24:22 667

原创 Hadoop HA自动故障转移&频繁启动问题解决

背景之前博客中有讲怎么配置hadoop的HA,在工作中,我因要进行数据治理组件的探究,所以需要部署一个测试集群来测试一下数据治理相关组件的集成,可能是因为测试集群比生产环境的配置要低,所以遇到了之前没有遇到的问题,比如HA配置后,NN一直频繁切换自动故障转移配置vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml<!-- 配置自动故障转移 --><property> <name>dfs.ha.automatic-failo

2022-05-09 11:09:42 993

原创 MaxWell监控本地数据库/RDS数据库的配置与使用

MaxWell监控本地数据库/RDS数据库的配置与使用背景:maxwell的核心原理是根据mysql的binlog,模拟mysql的从机,通过监控binlog的变化来进行数据的同步传输工作步骤:maxwell监控指定目标的mysql数据库,写入数据到kafka/redis,通过传输工具进行同步更新数据第一步 安装# 备注 maxwell1.30不支持java8# 下载 https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxw

2022-04-01 11:55:53 1803

原创 打怪升级之小白的大数据之旅(七十四)<初识Kafka>

打怪升级之小白的大数据之旅(七十四)初识Kafka引言学完Flume之后,接下来将为大家带来Kafka相关的知识点,在工作中,Kafka和Flume经常会搭配使用,那么Kafka究竟是什么呢?让我们开始今天的内容吧Kafka地图惯例,首先介绍kafka整个知识点的脉络,然后再详细为大家带来详细的知识点kafka概述kafka是什么?有什么应用场景,它的架构是什么?kafka常用shell指令如何操作kafkakafka原理kafka它究竟是怎么实现的消息发送流程

2021-07-01 18:42:53 155

原创 打怪升级之小白的大数据之旅(七十三)<Flume高级>

打怪升级之小白的大数据之旅(七十三)Flume高级上次回顾上一章介绍了Flume的内部原理,本章就Flume的扩展知识进行讲解,本章的重点就是了解并学会使用Flume的自定义组件自定义组件在上一章介绍了内部原理,所以下面我们就可以根据内部原理来制定自定义的组件,例如上一章说的Channel选择器中的多路复用,就是需要搭配自定义拦截器Interceptor来使用自定义 Interceptor在实际开发中,自定义拦截器算是我们比较常用的手段,它可以配合channel选择器来将我们的日志信息分类存储

2021-06-24 08:12:31 324

原创 打怪升级之小白的大数据之旅(七十二)<Flume进阶>

打怪升级之小白的大数据之旅(七十二)Flume进阶上次回顾上一章对Flume的基础知识点进行了分享,有了上一章的铺垫,本章就深入学习一下Flume的进阶知识点Flume事务Flume既然是针对海量数据传输的框架,它最主要的工作自然就是数据的传输,为了确保数据的完整性,Flume内部会有一个事务机制,用于保证数据再传输过程中的完整、正确性上图就是Flume包含事务的架构图,图中我们可以看到,Flume由两部分组成Source端的事务 Put事务doput 将批数据先写入到临时缓冲区put

2021-06-19 09:00:23 153

原创 打怪升级之小白的大数据之旅(七十一)<Hadoop生态:初识Flume>

打怪升级之小白的大数据之旅(七十一)Hadoop生态:初识Flume上次回顾上一章,我们学习完了hive的内容,本章开始是Hadoop中经常使用的另外一个框架 Flume初识Flume下面这个是flume的标志flume的中文是水槽,但我觉得将它音译为浮木更加贴切官方对Flume的解释是这样的:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单我对Flume的理解:水流就像数据的传输过程(想象IO流

2021-06-16 18:17:10 257 6

原创 打怪升级之小白的大数据之旅(七十)<Hive旅程终点站:Hive的综合案例>

打怪升级之小白的大数据之旅(七十)Hive旅程终点站:Hive的综合案例

2021-06-14 10:54:10 150

原创 打怪升级之小白的大数据之旅(六十九)<Hive旅程第十站:Hive的优化>

打怪升级之小白的大数据之旅(六十九)Hive旅程第十站:Hive的优化上次回顾总结

2021-06-10 16:09:34 233

原创 打怪升级之小白的大数据之旅(六十八)<Hive旅程第九站:Hive的压缩与存储>

打怪升级之小白的大数据之旅(六十八)Hive旅程第九站:Hive的压缩与存储上次回顾上一章,我们学习完了hive的函数相关操作,到此,我们hive的大的知识点就全部介绍完毕了,当然了,还有一些细节我没有讲到,大家可以私信我或者去官网看看说明文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC本章和下一章的内容与Hadoop学习一样,我将优化部分拆分成两块,把压缩和存储单独抽出来,然后再是其他在工作中遇到的一些优

2021-06-06 15:07:37 143

原创 打怪升级之小白的大数据之旅(六十七)<Hive旅程第八站:Hive的函数>

打怪升级之小白的大数据之旅(六十七)Hive旅程第七站:Hive的函数

2021-06-05 16:15:08 314 2

原创 打怪升级之小白的大数据之旅(六十六)<Hive旅程第七站:Hive的分区表与分桶表>

打怪升级之小白的大数据之旅(六十六)Hive旅程第七站:Hive的分区表与分桶表

2021-06-03 11:38:30 88 2

原创 打怪升级之小白的大数据之旅(六十五)<Hive旅程第六站:Hive的查询>

打怪升级之小白的大数据之旅(六十五)Hive旅程第六站:Hive的查询

2021-06-02 08:22:51 267

原创 打怪升级之小白的大数据之旅(六十四)<Hive旅程第五站:DML基本操作>

打怪升级之小白的大数据之旅(六十四)Hive旅程第五站:DML基本操作

2021-06-01 11:11:10 111

原创 打怪升级之小白的大数据之旅(六十三)<Hive旅程第四站:DDL操作>

打怪升级之小白的大数据之旅(六十三)Hive旅程第四站:DDL操作

2021-05-31 08:32:40 149

原创 打怪升级之小白的大数据之旅(六十二)<Hive旅程第三站:Hive数据类型>

打怪升级之小白的大数据之旅(六十二)Hive旅程第三站:Hive数据类型

2021-05-30 15:47:17 124

原创 打怪升级之小白的大数据之旅(六十一)<Hive旅程第二站:Hive安装>

打怪升级之小白的大数据之旅(六十一)Hive旅程第二站:Hive安装上次回顾上一章我们学习了Hive的概念以及框架原理,本章节是对Hive的安装进行分享,因为它有些需要自己配置的点,所以我单独开了一个章节Hive 安装前期的准备:Hive是基于Hadoop,所以我们在Hadoop集群的基础上进行的,我们的环境如果跟着我Hadoop的操作一般是没有什么问题的。为什么要安装Mysql?Hive内部的元数据是存储在 derby中,我们可以将derby理解为Hive内部自带的数据库因为derb

2021-05-29 08:26:54 149 2

原创 打怪升级之小白的大数据之旅(六十)<Hive旅程中的始发站>

打怪升级之小白的大数据之旅(六十)Hive旅程中的始发站引言经过了前面Hadoop、MR、Java、MySQL以及Linux的洗礼,接下来我们就要进入到大数据中特别重要的一个知识点学习–Hive,Hive是我们大数据日常工作中必不可少的一个技能,基本上许多有大数据部门的公司他们雇佣的大数据工程师就是利用Hive来完成他们的日常工作…既然Hive这么重要,那么我们应该怎么学好它呢?别急,跟着我一起进入Hive的旅程吧Hive始发站—Hive的地图博客已经写到了第六十期了,看过我前面博客的小伙

2021-05-28 18:31:01 161

原创 打怪升级之小白的大数据之旅(五十九)<Hadoop优化方案>

打怪升级之小白的大数据之旅(五十八)Hadoop优化方案与扩展知识点

2021-05-27 09:26:07 151 2

原创 打怪升级之小白的大数据之旅(五十八)<HadoopHA>

打怪升级之小白的大数据之旅(五十八)HadoopHA高可用上次回顾上一章,我们学习了Hadoop扩展内容–压缩的相关知识,本章为大家带来Hadoop的另一个扩展内容HA高可用技术,有了它,我们就再也不怕HDFS的NameNode泵机导致数据丢失了…HA概述HA的意思就是高可用,即7*24小时不中断服务,有了它996什么的弱爆了实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA为什么要使用HA还记得前面介绍HDFS的时候,提到过N

2021-05-26 15:56:27 197 9

原创 打怪升级之小白的大数据之旅(五十七)<Hadoop压缩>

打怪升级之小白的大数据之旅(五十七)Hadoop压缩与HA

2021-05-25 08:16:16 141

原创 打怪升级之小白的大数据之旅(五十六)<Zookeeper内部原理>

打怪升级之小白的大数据之旅(五十六)Zookeeper内部原理上次回顾上一章介绍了操作zookeeper的两种方式,shell和代码,然后通过一个实例动态上下线来体验zookeeper的魅力,本章节是对zookeeper的内部原理进行分享,zookeeper的内部原理比较重要的就是监听器原理和选举机制,让我们开始吧~~zookeeper内部原理节点类型在上一章的动态上下线案例我们用过临时节点,这下来详细说明一下zookeeper的节点zookeeper的节点分成两大类,一类是持久化节点和临时

2021-05-24 08:37:02 144 4

原创 打怪升级之小白的大数据之旅(五十五)<Zookeeper命令行与API应用>

打怪升级之小白的大数据之旅(五十五)Zookeeper命令行与API应用上次回顾上一章,我们对zookeeper的基本概念以及环境搭建进行了学习与配置,有了环境,接下来就正式操作zookeeper啦zookeeper实战zookeeper和HDFS一样,同样分为命令行和客户端操作两种方式,主要就是各种命令和API的调用,大家需要的时候查看这篇博客即可命令行操作命令基本语法功能描述help显示所有操作命令ls path 使用 ls 命令来查看当前znode的子节点-

2021-05-23 16:49:53 1000 16

原创 打怪升级之小白的大数据之旅(五十四)<Zookeeper概述与部署>

打怪升级之小白的大数据之旅(五十四)Zookeeper概述与部署上次回顾上一章,我们学习了Hadoop的最后一个模块–Yarn,然后我对整个Hadoop进行了总结,如果大家对我串讲的知识点有更好的理解,欢迎私信我哈本章节开始学习zookeeper,zookeeper我会分为三个部分第一部分是基本概述和环境配置第二部分是具体的使用,它和HDFS一样;通过命令行和代码两种方式第三部分是内部原理的分享,老样子,知道了底层的原理可以更好分辅助我们了解这个框架Zookeeper概述初识zo

2021-05-22 11:12:08 190 2

原创 打怪升级之小白的大数据之旅(五十三)<Hadoop最后一个模块--Yarn>

打怪升级之小白的大数据之旅(五十三)Hadoop最后一个模块–Yarn上次回顾上一章,我们学完了整个MapReduce的知识点,至此,Hadoop的三大模块就剩下最后一个模块–Yarn了YarnYarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,MapReduce等运算程序相当于运行于操作系统之上的应用程序Yarn就类似我们的Windows系统,我们的MapReduce就像我们的软件,它是运行在Yarn上的,了解清楚这个之后,我们再回想一下Hadoop集

2021-05-21 15:11:50 428 15

原创 打怪升级之小白的大数据之旅(五十二)<MapReduce框架总结与扩展知识点>

打怪升级之小白的大数据之旅(五十一)MapReduce框架总结与扩展知识点上次回顾上一章对MapReduce的最后一个模块OurputFormat进行了学习,然后我们又学习了一下如何通过MapReduce来完成数据的连接操作,本章,是MapReduce的最终章,我在写本章的时候,发现前面忘记介绍MpaTask与ReduceTask了,所以本章补上哈,另外还有两个扩展的知识点,讲完这些,我会对整个MapReduce进行总结一下,让大家再次了解MapReduce的工作流程,更加清晰地认识MapReduce

2021-05-20 09:37:22 159 2

原创 打怪升级之小白的大数据之旅(五十一)<MapReduce框架原理三:OutputFormat&Join>

打怪升级之小白的大数据之旅(五十)MapReduce框架原理三:OutputFormat&Join上次回顾上一章,我们学习了MapReduce框架中的shuffle机制,本章节是MapReduce中的最后一个模块OutputFormat,它的原理和前面我们学的InputFormat一样…本章还会为大家带来一个实际一点的需求:JoinOutputFormatOutputFormat和InputFormat原理一样,底层都是流的方式来完成对数据的操作,首先介绍一下OutputFormat的继承

2021-05-19 18:10:32 129

原创 打怪升级之小白的大数据之旅(五十)<MapReduce框架原理二:shuffle>

打怪升级之小白的大数据之旅(五十)MapReduce框架原理二:shuffle上次回顾上一章。我们学习了Hadoop中MapReduce框架原理中的工作流程以及InputFormat模块,本章我为大家带来shuffleshuffle机制shuffle工作机制在上一章开篇MapReduce框架整体认知中,我们了解了MapReduce的模块构成,当时我只是提了一下shuffle,它的工作内容是map阶段的后半段以及reduce的前半段Map方法之后,Reduce方法之前的数据处理过程称之为Shu

2021-05-18 08:47:05 115

原创 打怪升级之小白的大数据之旅(四十九)<MapReduce框架原理一:MapReduce工作流程&InputFormat>

打怪升级之小白的大数据之旅(四十九)MapReduce框架原理一:MapReduce工作流程&InputFormat上次回顾上一章我们整体的认识了一下MapReduce,通过案例来认识MapReduce的核心思想,本章开始,我会对MapReduce的框架中的各个模块进行详细的讲解,里面也会有一些相关的源码,大家不要慌,看源码是学习大数据必不可少的内容,我会循序渐进的带大家来认识MapReduce框架、认识大数据MapReduce框架整体认知首先看图:图例讲解:MapReduce

2021-05-17 14:06:48 130

原创 打怪升级之小白的大数据之旅(四十八)<初识MapReduce>

打怪升级之小白的大数据之旅(四十八)初识MapReduce上次回顾在Hadoop开篇的时候,说过,大数据的主要用途就是对海量数据的存储与计算分析,通过学习Hadoop的HDFS,我们已经知道了海量数据可以通过集群的方式来进行分块存储,今天将为大家带来Hadoop的第二个核心模块–MapReduce,我们通常称它为MRMapReduce概述MapReduce定义我们再次回顾一下Hadoop开篇的那张图我在前面说过,Hadoop2.0之后,MapReduce就对它自己内部的计算和资源调度进行了

2021-05-16 19:04:31 167 1

原创 打怪升级之小白的大数据之旅(四十七)<HDFS扩展知识点>

打怪升级之小白的大数据之旅(四十七)HDFS扩展知识点上次回顾上一章我们学习了HDFS个模块的运行原理,学会了这些,本章节的扩展知识就会更加容易理解HDFS的扩展知识点NameNode故障处理当我们的NameNode出现了故障后,我们可以采用如下两种方法恢复数据,当然了,只能恢复部分的数据,因为内存中正在运行的数据还没有滚动写入到edit文件中NameNode数据恢复方法利用NN和2NN的工作原理,我们可以将SecondaryNameNode中数据拷贝到NameNode存储数据的目录,然后对

2021-05-15 16:36:12 157

原创 打怪升级之小白的大数据之旅(四十六)<HDFS各模块的原理>

打怪升级之小白的大数据之旅(四十六)HDFS各模块的原理上次回顾总结

2021-05-15 08:33:42 225 2

原创 打怪升级之小白的大数据之旅(四十五)<认识HDFS与常用操作>

打怪升级之小白的大数据之旅(四十五)Hadoop的HDFS上次回顾上一章常见异常就不说了,我就大概说一下整个Hadoop的搭建吧,首先我们先对单台服务器进行配置第一步:我们需要创建一台最小软件的CentOS系统,并进行一些基本配置,例如IP设置,创建用户,主机名与hosts文件设置等,然后进行服务器的克隆,我们安装Hadoop最小要求,准备三台服务器,然后重复前面的基本配置需要下载一些常见的插件,如VIM以及安装一下JDK与Hadoop并设置好环境变量第三步: 我们需要进行SSH无密登录的配置

2021-05-14 08:15:21 556 2

原创 打怪升级之小白的大数据之旅(四十四)<Hadoop搭建过程中的一些问题>

打怪升级之小白的大数据之旅(四十四)Hadoop搭建过程中的一些问题上次回顾我用了两章对Hadoop的搭建进行讲解,大家搭建前,先看我开篇的步骤讲解,然后再根据步骤进行搭建,本章就对一些常见问题进行分享,大家也有问题;欢迎后台留言,让我可以扩充这一章节防火墙没关闭、或者没有启动YARN如果我们在前面没有关闭防火墙或者没有在hadoop103服务器上启动YARN,那么就会出现下面错误INFO client.RMProxy: Connecting to ResourceManager at hado

2021-05-13 20:13:34 264

原创 打怪升级之小白的大数据之旅(四十三)<Hadoop运行模式(集群搭建)>

打怪升级之小白的大数据之旅(四十三)Hadoop运行模式(集群搭建)上次回顾上一章对单个Hadoop服务器环境搭建进行分享,本章对Hadoop集群的搭建以及运行进行分享,集群是Hadoop的核心,所以本章节很重要!很重要!很重要!OK,让我们开始Hadoop的运行模式&集群的概述Hadoop运行模式概述Hadoop的运行模式分为本地模式、伪分布式模式和完全分布式模式三种,伪分布式没什么意思,我们也几乎用不到,我就不介绍了,我们的核心是完全分布模式,它就是我们Hadoop的集群集群的

2021-05-13 08:21:15 391

原创 打怪升级之小白的大数据之旅(四十二)<Hadoop运行环境搭建>

打怪升级之小白的大数据之旅(四十二)大数据与Hadoop运行环境搭建上次回顾总结

2021-05-12 09:11:48 191 1

原创 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>

打怪升级之小白的大数据之旅(四十)Hadoop概述上次回顾好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会为大家带来Hadoop相关的知识点,Hadoop是大数据框架中最最基础的一个,也是最好入门的一个,OK,让我们正式开始心心念念的大数据旅程吧~大数据概述Hadoop概述Hadoop的运行环境搭建总结...

2021-05-11 08:47:41 327

原创 打怪升级之小白的大数据之旅(四十)<Shell编程>

打怪升级之小白的大数据之旅(四十)Shell编程上次回顾上一章对Linux的常用命令进行了总结分享,命令比较多,VIM是必须要首先熟练的,其次就是按照优先级去练习,本章节对Shell编程进行分享,当然了,我只将后面大数据中可能用到的知识点进行分享,Shell编程真的展开来讲,至少得半个月到一个月。。。我们不是运维,不要纠结,只需要关系我在博客里提到过的知识点哈Shell概述Shell就是一个命令行解释器,就如同我们在Windows中的cmd一样,它用于接收应用程序或者用户的命令,然后再调用操作系

2021-05-10 21:02:49 452 4

原创 打怪升级之小白的大数据之旅(三十九)<Linux常用命令>

打怪升级之小白的大数据之旅(三十九)Linux常用命令上次回顾上一章对Linux基础知识以及一些配置进行了分享,本章节我会对一些常用的命令进行分享,我将常用的命令进行了优先级的分类,大家按照这个优先级练习就好。优先级最高的都是我们经常用到的Linux优先级VIM我上一章介绍过了哈,这里就不重复了,有需要的小伙伴请看上一章第一优先级vi/vim服务管理类文件目录类文件权限类进程线程类软件包管理类crond系统定时任务第二优先级用户管理命令用户组管理命令搜索查找类压缩解

2021-05-09 08:41:55 452

打怪升级之小白的大数据之旅--hive测试数据

hive测试数据

2021-06-03

Myemployees.sql

我的博客示例代码的数据集,可以根据这个数据集进行练习

2021-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除