![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 95
大数据老司机
专注于大数据智能运维和大数据开发领域优质创作者
展开
-
数仓 Hive HA 介绍与实战操作
在数据仓库中,是指为这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案,用于处理大规模数据的查询和分析。为了确保Hive服务的连续性和可用性,特别是在出现硬件故障、软件问题或其他中断情况时,实施Hive的高可用性解决方案非常重要。Hive HA通常涉及以下几个方面:元数据存储的高可用性: 元数据存储在Hive Metastore中,其中包括表的结构、分区信息、表的位置等。为了确保元数据的高可用性,可以使用数据库复制、备份和恢复策略。原创 2023-08-06 18:41:56 · 400 阅读 · 0 评论 -
Hadoop on k8s 快速部署进阶精简篇
前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:Hadoop on k8s 编排部署进阶篇原创 2023-07-10 20:30:00 · 927 阅读 · 0 评论 -
Hadoop on k8s 编排部署进阶篇
Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它使用了Hadoop分布式文件系统来存储数据,并通过MapReduce编程模型进行数据处理。Kubernetes(通常简称为K8s)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。它提供了一种强大的方式来管理容器化应用程序的资源和生命周期。将Hadoop部署在Kubernetes上(通常称为或)是一种将Hadoop与Kubernetes结合使用的方式。它将Hadoop集群中的各个组件(如NameNode。原创 2023-07-09 18:11:15 · 1037 阅读 · 0 评论 -
【大数据】yarn proxyserver 和 historyserver 讲解
Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。在YARN中,应用主机(AM)有责任提供web UI并将该链接发送到RM。这引发了许多潜在的问题。RM以受信任用户的身份运行,访问该网址的人会将其及其提供给他们的链接视为受信任,而实际上AM是以不受信任用户身份运行的,并且它提供给RM的链接可能指向任何恶意或其他内容。原创 2023-05-09 00:10:04 · 619 阅读 · 0 评论 -
【大数据】yarn 任务中的几种状态变化详细过程
在YARN中,应用程序和Container的状态变化会影响任务的执行和资源分配。原创 2023-05-08 07:30:00 · 1269 阅读 · 1 评论 -
【大数据】Hive Join 的原理与机制
Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。Hive 中 的 Join 可分为(Reduce阶段完成join)和Map Join(Map 阶段完成 join)。数据分片:Hive将参与JOIN操作的表按照指定的JOIN条件进行分片。每个分片是表的一个子集,用于并行处理。Map阶段。原创 2023-05-07 20:30:00 · 739 阅读 · 0 评论 -
【大数据】Hive DDL 操作与视图讲解
Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。用语句来查看视图定义。总之,Hive中的DDL操作和视图操作可以帮助用户定义和管理表、视图等数据结构,从而更加灵活和高效地管理和查询数据。用户可以根据实际需求选择使用哪种操作方式,以达到更好的数据管理和操作效果。原创 2023-05-05 23:36:13 · 561 阅读 · 0 评论 -
【大数据】Hive 内置函数和 UDF 讲解
Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。除了Hive内置函数之外,用户还可以自定义函数来实现更加灵活的操作。标量函数(UDF:将一行中的一个值转换为另外一个值,比如字符串转小写;集合函数(UDAF:作用于多个值上,并且返回一个结果,比如平均值;行级别函数(UDTF。原创 2023-05-05 21:18:39 · 542 阅读 · 0 评论 -
【大数据】Hive 分区和分桶的区别及示例讲解
在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了这个分区的数据。因此,在Hive中使用分区,实际上是将数据按照某个属性值进行划分,然后将相同属性值的数据存储在同一个文件夹中。Hive分区的效率提升主要是因为,当进行查询操作时,只需读取与查询相关的数据分区,避免了全表扫描,节约了查询时间。提高查询效率。原创 2023-05-03 19:52:58 · 428 阅读 · 0 评论 -
通过 docker-compose 快速部署 Hive 详细教程
其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的,Hive 做为最常用的数仓服务,所以是有必要进行集成的,感兴趣的小伙伴请认真阅读我以下内容,通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务,方便小伙伴学习、测试、验证功能等等~通过 docker-compose 快速部署 Hadoop 集群详细教程通过 docker-compose 快速部署 Hadoop 集群极简教程。原创 2023-04-05 20:00:00 · 2304 阅读 · 0 评论 -
大数据Hadoop之——Apache Hudi 与 Presto/Trino集成
Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上,并与流行的查询引擎(如Presto(Trino)、Apache Hive、ApacheSpark和Apache Impala)集成良好。鉴于Hudi开创了一种新的模型,它不仅仅是将文件写入到一个更受管理的存储层,该存储层原创 2022-10-30 00:29:28 · 2173 阅读 · 0 评论 -
大数据Hadoop之——Apache Hudi 数据湖实战操作(FlinkCDC)
Hudi 是一个流式数据湖平台大数据Hadoop之——新一代流式数据湖平台 Apache Hudi大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)数据处理:计算引擎,例如:flink、spark等。数据存储:HDFS、云存储、AWS S3、对象存储等。数据管理数据查询:查询引擎,例如:Spark、Trino(Presto)、Hive、Starrocks(Doris)等。原创 2022-10-29 01:00:42 · 3595 阅读 · 0 评论 -
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HDFS或云存储(S3)的工具,最主要的特点支持记录级别的插入更新(Upsert)和删除,同时还支持增量查询。大数据Hadoop之——新一代流式数据湖平台 Apache Hudi。原创 2022-10-22 18:37:23 · 2139 阅读 · 0 评论 -
大数据Hadoop之——新一代流式数据湖平台 Apache Hudi
Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HDFS或云存储(S3)的工具,最主要的特点支持记录级别的插入更新(Upsert)和删除,同时还支持增量查询。原创 2022-10-16 22:20:07 · 3927 阅读 · 0 评论 -
【云原生】Hadoop HA on k8s 环境部署
在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24小时可用状态。Hadoop 2.0 及之后版本增加了 Namenode 高可用机制,这里主要讲Hadoop HA on k8s 环境部署。【云原生】Hadoop on k8s 环境部署。原创 2022-09-26 23:44:59 · 3466 阅读 · 6 评论 -
【云原生】Hadoop on k8s 环境部署
Hadoop是Apache软件基金会下一个开源分布式计算平台,以HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上,形成分布式系统。目前最新版本已经是3.x了,官方文档。原创 2022-09-24 18:16:27 · 4737 阅读 · 22 评论 -
大数据Hadoop之——总结篇
前面已经介绍了几乎企业里使用到的绝大多数大数据组件了,这里来个简单的总结,主要针对常见的操作进行总结。也方便自己和大家在工作中快速查阅。原创 2022-08-22 07:30:00 · 4339 阅读 · 0 评论 -
大数据Hadoop之——HDFS小文件问题与处理实战操作
HDFS中文件上传会经常有小文件的问题,每个块大小会有150字节的大小的元数据存储namenode中,如果过多的小文件每个小文件都没有到达设定的块大小,都会有对应的150字节的元数据,这对namenode资源浪费很严重,同时对数据处理也会增加读取时间。HDFS中分块可以减少后续中MapReduce程序执行时等待文件的读取时间,HDFS支持大文件存储,如果文件过大10G不分块在读取时处理数据时就会大量的将时间耗费在读取文件中,分块可以配合MapReduce程序的切片操作,减少程序的等待时间。原创 2022-08-21 19:00:00 · 2768 阅读 · 0 评论 -
大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作
hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM)原创 2022-08-21 07:30:00 · 2788 阅读 · 2 评论 -
大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM)
在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24小时可用状态。Hadoop 2.0 及之后版本增加了 Namenode 高可用机制,下面详细介绍。原创 2022-08-20 11:29:46 · 2803 阅读 · 1 评论 -
大数据Hadoop之——Kafka API介绍与实战操作
Kafka包括五个核心api:Java 客户端接口文档:https://kafka.apache.org/32/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.html非 Java 客户端接口文档:https://cwiki.apache.org/confluence/display/KAFKA/Clients使用java kafka需引入依赖:slf4j-api、slf4j-log4j12、log4j三者之间的关系如原创 2022-06-25 07:30:00 · 842 阅读 · 0 评论 -
大数据Hadoop之——Kafka鉴权认证(Kafka kerberos认证+kafka账号密码认证+CDH Kerberos认证)
Kerberos概述与安装可以参考我之前的文章:Kerberos认证原理与环境部署Kafka安装可以参考我以前的文章:大数据Hadoop之——Kafka 图形化工具 EFAK(EFAK环境部署)分布式开源协调服务——ZookeeperKafka Kerberos认证官方文档:https://kafka.apache.org/31/documentation.html#security_saslKafka 是服务,所以这里使用的是服务principal,不清楚的小伙伴可以看我上面的文章。格式如下:1)创原创 2022-06-06 07:30:00 · 3407 阅读 · 1 评论 -
大数据Hadoop之——数据同步工具DataX
文章目录一、概述二、DataX3.0框架设计三、DataX3.0架构1)核心模块介绍2)DataX调度流程四、环境部署1)下载2)设置环境变量3)官方示例五、实战示例1)MYSQL to HDFS1、准备好库表数据2、配置json文件3、执行4、验证1)MYSQL to Hive1、准备好hive库表数据2、配置json文件3、执行4、验证3)HDFS to MYSQL1、准备好HDFS文件数据2、准备好MySQL表3、配置json文件4、执行5、验证六、DataX-WEB 安装部署1)下载2)解压3)配置原创 2022-05-12 22:36:27 · 2446 阅读 · 0 评论 -
大数据Hadoop之——数据采集存储到HDFS实战(Python版本)
要运行这个实例,必须先安装好hadoop和hive环境,环境部署可以参考我之前的文章:大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)大数据Hadoop之——数据仓库Hive【实例代码如下】#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2022/5/8 10:35# @Author : liugp# @File : Data2HDFS.py"""# pip instal原创 2022-05-08 12:58:43 · 2182 阅读 · 0 评论 -
大数据Hadoop之——数据同步工具Sqoop
文章目录一、概述二、架构1)数据导入(RDBMS->Haoop)2)数据导出(Haoop->RDBMS)三、安装1)下载2)配置环境变量3)配置sqoop代理用户4)安装JDBC5)修改`conf/sqoop.properties`6)存储库初始化7)启动sqoop服务端8)启动sqoop客户端9)设置客户端的各种属性四、简单使用1)常用命令2)数据从MYSQL导入到HDFS(Import)1、 创建JDBC连接2、创建HDFS连接3、创建Job任务4、执行Job3)从HDFS导出到MYSQL(原创 2022-05-03 20:45:00 · 2503 阅读 · 1 评论 -
大数据Hadoop之——数据分析引擎Apache Pig
文章目录一、Apache Pig概述二、Apache Pig架构1)架构图2)Apache Pig组件1、Parser(解析器)2、Optimizer(优化器)3、Compiler(编译器)4、Execution engine(执行引擎)三、Apache Pig安装1)下载Apache Pig2)配置环境变量3)修改配置四、Apache Pig执行模式1)本地模式2)Tez 本地模式3)Spark 本地模式4)MapReduce模式(默认模式)5)Tez 模式6)Spark 模式五、Apache Pig执行原创 2022-05-02 07:30:00 · 1892 阅读 · 1 评论 -
大数据Hadoop之——任务调度器Oozie(Oozie环境部署)
文章目录一、概述二、Oozie架构三、Oozie环境部署(Oozie与CDH集成)1)添加服务2)将 Oozie 服务添加到 CDH3)自定义角色分配4)数据库设置5)审核更改6)开始自动安装并自启四、CDH的 Hue 整合 Oozie五、Oozie简单使用1)在Hue上操作Ooize1、利用 Hue 调度 shell 脚本2、利用 Hue 调度 hive 脚本3、 利用 Hue 配置定时调度任务4)CLI操作Ooize六、Oozie与Azkaban对比一、概述Oozie是一个基于工作流引擎的开源框架原创 2022-04-30 07:30:00 · 3815 阅读 · 0 评论 -
大数据Hadoop之——Hadoop图形化管理系统Hue(Hue环境部署)
文章目录一、概述Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。Hue官方网站:https://gethue.com/官方安装文档:https://docs.gethue.com/administrato原创 2022-04-19 00:07:41 · 6920 阅读 · 1 评论 -
大数据Hadoop之——基于Hive的内存型SQL查询引擎Impala(Impala环境部署)
文章目录一、概述一、概述Impala的服务端是一个分布式的、大规模并行处理(MPP:Massively Parallel Processing)数据库引擎。不像hive,impala的服务端天然就是分布式的,在架构层面上,它在安装时就会跟DN计算节点放在一起。Impala官方文档...原创 2022-04-16 00:53:59 · 2621 阅读 · 0 评论 -
大数据Hadoop之——Cloudera Hadoop(CM 6.3.1+CDH 6.3.2环境部署)
文章目录一、概述1)目前比较流行Hadoop版本2)CDH特点二、CDH组件介绍1)Hive2)Impala1、Impala 优势2、工作原理3、Impala查询原理4、Impala的特性3)Kudu1、Kudu 优势2、Kudu-Impala集成5)Sentry6)Spark三、Cloudera Manager1)Terminology()术语2)Architecture(架构)一、概述在众多 Hadoop 版本中, CDH(Cloudera Hadoop) 是 Hadoop 众多分支中比较出色的版原创 2022-04-09 12:57:03 · 7423 阅读 · 0 评论 -
大数据Hadoop之——基于内存型SQL查询引擎Presto(Presto-Trino环境部署)
文章目录一、概述二、Presto特点三、Presto架构1)架构和服务节点2)Presto数据模型五、Presto安装部署1)单机版1、下载安装包一、概述Presto是Facebook开源的MPP(Massively Parallel Processing:大规模并行处理)架构的OLAP查询引擎,完全基于内存的并⾏计算,可针对不同数据源,执行大容量数据集的一款分布式SQL交互式查询引擎。 它是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。原创 2022-04-03 10:58:52 · 5787 阅读 · 1 评论 -
大数据Hadoop之——Azkaban API详解
文章目录一、Azkaban Plugin1)HDFS Viewer Plugins1、修改配置文件2)Azkaban Jobtype(默认就存在)Azkaban API一、Azkaban PluginAzkaban在设计上把核心功能和扩展插件分开了,因此可以很方便的为Azkaban安装一些有用的插件。插件可以在不同的环境中有选择地安装/升级,而不需要改变核心Azkaban,这使得Azkaban非常容易扩展到不同的系统。官方文档现在,Azkaban 允许许多不同的插件。在web服务器端,有如下插件:原创 2022-03-28 07:30:00 · 1944 阅读 · 0 评论 -
大数据Hadoop之——任务调度器Azkaban(Azkaban环境部署)
文章目录一、概述1)什么是任务调度?2)常见任务调度工具3)什么是Azkaban二、Azkaban 与 Oozie 对比三、Azkaban 运行模式及架构1)Azkaban Web Server2)Azkaban Executor Server3)关系型元数据库(MySQL)四、Azkaban安装部署1)solo server mode安装1、下载2、构建Azkaban安装包3、把编译好的包copy到其它目录3、启动服务4、web访问验证5、配置https并重启服务2)multiple executor m原创 2022-03-21 07:00:00 · 7767 阅读 · 1 评论 -
大数据Hadoop之——Scala基础
文章目录一、概述二、Scala发展历史三、 Scala 和 Java 关系四、Scala 环境搭建一、概述Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言,当然Spark的兴起,也带动Scala语言的发展!官方文档:https://www.scala-lang.org/二、Scala发展历史联邦理工学院的马丁·奥德原创 2022-03-18 00:01:50 · 4304 阅读 · 0 评论 -
大数据Hadoop之——Flink CEP(Complex Event Processing:复合事件处理)详解(kafka on window)
文章目录一、概述二、核心组件三、Pattern API1)个体模式(Individual Patterns)1、量词2、条件2)组合模式(Combining Patterns,也叫模式序列)1、事件之间的连续策略2、循环模式中的连续性3)模式组(Group of Pattern)匹配后跳过策略四、Pattern检测五、Flink CEP应用场景六、安装Kafka(window)1)下载kafka2)配置环境变量3)创建相关文件4)修改配置七、Flink CEP实战一、概述**复合事件处理(Comple原创 2022-03-06 16:20:18 · 2414 阅读 · 0 评论 -
大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)
文章目录一、Flink中的状态1)键控状态(Keyed State)1、控件状态特点2、键控状态类型3、状态有效期 (TTL)1)过期数据的清理2)全量快照时进行清理3)增量数据清理4)在 RocksDB 压缩时清理4、键控状态的使用2)算子状态(Operatior State)1、算子状态特点2、算子状态类型3)广播状态 (Broadcast State)二、状态后端(State Backends)1)状态后端分类2)配置方式1、【第一种方式】基于代码方式进行配置2、第二种方式:基于 flink-conf原创 2022-03-03 07:30:00 · 1429 阅读 · 0 评论 -
大数据Hadoop之——Flink中的Window API+时间语义+Watermark
文章目录一、window 概念二、 时间窗口(Time Window)1)滚动窗口(Tumbling Windows)2)滑动窗口(Sliding Windows)3)会话窗口(Session Windows)三、window API四、窗口分配器(window assigner)一、Flink 中的时间语义二、设置 Event Time三、水位线(Watermark)四、watermark 的传递、引入和设定一、window 概念窗口(window)是处理无限流的核心。窗口将流分割成有限大小的“桶”原创 2022-02-27 18:30:00 · 1646 阅读 · 0 评论 -
大数据Hadoop之——Flink DataStream API 和 DataSet API
文章目录一、DataStream API概述一、DataStream API概述DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为 它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但用于处理它们的API是相同的。...原创 2022-02-26 21:42:15 · 2452 阅读 · 0 评论 -
大数据Hadoop之——搭建本地flink开发环境详解(window10)
文章目录一、下载安装IDEA(IDEA2020.2.3破解版)二、搭建本地hadoop环境(window10)三、安装Maven三、新建项目和模块1)新建maven项目2)新建flink模块三、配置IDEA环境(scala)1)下载安装scala插件2)配置scala插件到模块或者全局环境3)创建scala项目4)DataStream API配置1、Maven配置2、示例演示5)Table API & SQL配置1、Maven配置2、示例演示5)HiveCatalog1、Maven配置2、Hadoo原创 2022-02-19 18:15:37 · 3579 阅读 · 2 评论 -
大数据Hadoop之——部署hadoop+hive环境(window10)
文章目录一、安装JDK81)JDK下载地址2)验证二、Hadoop安装1)下载Hadoop3.1.32)配置环境变量3)配置相关配置文件一、安装JDK81)JDK下载地址http://www.oracle.com/technetwork/java/javase/downloads/index.html按正常下载是需要先登录的,这里提供一个不用登录下载的方法连接如下:https://www.oracle.com/webapps/redirect/signon?nexturl=https://d原创 2022-02-13 20:52:28 · 5077 阅读 · 2 评论