大数据组件
文章平均质量分 73
本文主要介绍大数据的各个组件,包括各个数据的运行原理及其使用命令
绝域时空
这个作者很懒,什么都没留下…
展开
-
Docker-Compose构建spark集群
知道我的兄弟朋友们可能知道,我最近工作中,我们老大叫我利用Docker构建大数据开发环境。今天真的十分开心,我利用Docker-Compose构建出Kafka-Spark-MySQL的云平台大数据开发环境,并利用自己撰写的spark streaming程序实现了实时数据的处理。本篇文章主要介绍利用Docker-Compose构建出Spark的运行环境,和前面的Kafka和MySQL相似,本次搭建的Spark集群还是采用Bitnami的镜像进行构建。...原创 2022-08-09 20:37:19 · 1182 阅读 · 1 评论 -
基于Docker-compose构建Kafka集群
首先,先向大家道个歉。由于前段时间的工作调整,导致我一直没有进行更新。现在工作逐渐走上正轨,现在决定继续更新自己学习的内容。希望对于学习或者从事大数据开发的你提供一些帮助。本次更新的内容为如何使用Docker-compose技术进行Kafka集群的构建。...原创 2022-07-31 20:59:13 · 1828 阅读 · 2 评论 -
大数据OLAP分析数据库ClickHouse之表引擎
1、ClickHouse表引擎表引擎分为四种:1. MergeTree2. Log3. Integrations4. Special1.MergeTreeMergeTree系列引擎适用于高负载任务,支持大数据量的快速写入并进行后续的数据处理,通用程度高且功能强大。该系列引擎的共同特点是支持数据副本、分区、数据采样等特性。表引擎特点MergeTree用于插入极大量的数据到一张表中,数据以数据片段的形式一个接着一个的快速写入,数据片段按照一定的规则进行合并。Repl原创 2022-05-03 11:14:08 · 380 阅读 · 0 评论 -
Java连接ClickHouse实现数据库基本增删查
引言ClickHose作为一个新的列式数据库,其在实时数仓中作为结果存储的数据库。对于Java程序员来说,我们需要对于ClickHouse进行数据的增删查改,进而支持后续的处理业务。我使用面向对象的思想,实现Java操作ClickHouse的增删改,希望对于学习和使用ClickHouse的你有些帮助。一、依赖导入<dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>click原创 2022-05-01 17:14:15 · 14161 阅读 · 9 评论 -
大数据组件之HBase
文章目录前言一、HBase1、Region2、RegionServer3、Master4、Zookeeper二、HBases的Standalone安装1、解压配置环境变量1.下载2.解压3.配置环境变量2、修改配置文件信息1.hbase-env.sh2.hbase-site.xml3.启动HBase4.验证启动是否成功三、HBase完全分布式搭建四、HBase常见shell指令1、基本指令1.打开HBase shell2. 获取帮助3. 查看服务器状态4.查看版本信息5.创建命名空间6.描述命名空间7.删除原创 2022-03-21 10:36:40 · 4353 阅读 · 16 评论 -
hive优化大全(hive的优化这一篇就够了)
文章目录写在前面一、概述1.1 数据倾斜1.2 MapReduce二、产生原因三、解决方案和避免方案3.1建表层面3.1.1 分区表写在前面前几天发的大数据组件之Hive(Hive学习一篇就够了),其访问量和点赞数很多,这次打算更新一点关于hive的语句优化和关于hive的一些配置的文章。希望大家持续关注,我会继续更新更多的文章。一、概述首先。我们为啥要进行优化。从事大数据开发的人员都体验过这样的感觉。当我们写完一个查询指令。当我们按下回车的时候,我们等到map的进度条到99%时,系统就像卡住一样。原创 2022-03-12 12:13:52 · 3563 阅读 · 1 评论 -
大数据组件之Hive(Hive学习一篇就够了)
文章目录一、Hive安装1、解压环境2、环境变量配置3、配置文件信息1.打开编辑文件2.输入以下内容4、拷贝mysql驱动5、更新guava包和hadoop一致6、mysql授权7、初始化8、hive启动模式9、Hadoop的core-site.xml配置二、Hive1、Hive的文件结构2、MySQL上Hive的元数据3、hadoop文件授权4、Hive的驱动器:Driver5、抽象语法树(AST)6、动态分区三、Hive的数据类型1、Hive基本数据类型2、非常规数据类型1.数组类型2.图类型3.结构体原创 2022-03-05 13:41:11 · 5411 阅读 · 6 评论 -
大数据调度工具之Oozie
文章目录一、oozie1、Oozie模块1.Workflow2.Coordinator3.Bundle Job2、Oozie的常用节点1.控制流节点(Control Flow Nodes)2.动作节点(Action Nodes)二、Oozie安装1、配置maven环境1.打开文件2.输入以下内容4、验证maven仓库是否配置完成2、下载资源3、编译安装4、安装Oozie5、Hadoop配置修改1.core-site.xml2.mappred-site.xml3.yarn-site.xml6、部署Oozie7原创 2022-02-27 14:34:16 · 1488 阅读 · 0 评论 -
数据迁移工具之Flume
一、FlumeFlume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。1、Flume的架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-puWFE5f8-1645613325525)(.\Flume\Flume架构.jpg)]1.AgentAgent是一个JVM进程,它是以事件的形式将数据从源头送至目的。它原创 2022-03-04 09:02:49 · 807 阅读 · 1 评论 -
数据迁移工具之DataX
一、DataXDataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。1、DataX框架[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z79kVoKg-1645612858233)(.\DataX\DataX框架.png)]**Reader:**数据采集模块,负责采集数据源的数据,将数据发送给Framework。原创 2022-03-03 15:27:57 · 2833 阅读 · 0 评论 -
Azkaban的安装部署
文章目录一、Azkaban二、安装部署1、安装包准备2、安装Azkaban1.解压安装包2.文件重命名3.azkaban脚本导入3、生成密钥对4、相关配置1.修改时区2.Web服务器配置3.增加管理员用户4.执行服务器配置5.启动服务一、AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban原创 2022-02-23 18:38:05 · 3242 阅读 · 0 评论 -
Hive函数大全
一、数学函数1、取整函数: round1.函数描述返回值语法结构功能描述doubleround(double a)返回double类型的整数值部分(遵循四舍五入)2.例程hive> select round(10.235);#----10.0#----2、指定精度取整函数: round1.函数描述返回值语法结构功能描述doubleround(double a, int d)返回指定精度d的double类型2.例程h原创 2022-02-13 20:25:53 · 6519 阅读 · 5 评论 -
Hadoop的存储策略
Hadoop的存储策略策略 ID策略名称块分布creationFallbacksreplicationFallbacks15Lazy_PersistRAM_DISK: 1, DISK: n-1DISKDISK12All_SSDSSD: nDISKDISK10One_SSDSSD: 1, DISK: n-1SSD, DISKSSD, DISK7Hot (default)DISK: n< none >ARCHIVE5原创 2022-02-05 11:05:56 · 1445 阅读 · 0 评论 -
HDFS读取与写入步骤详解
HDFS读取与写入1、Hadoop写流程Hadoop写流程主要实现将文件上传到HDFS中,其指令格式如下所示:#hadoop上传文件语法hdfs dfs -put localpath hdfspath 其上传步骤可以分为以下八个步骤:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uiZZRUux-1644030277258)(.\hadoop\HDFS写流程.jpg)]客户端通过Distributed FileSystem模块向NameNode请求上传文件原创 2022-02-05 11:04:54 · 1622 阅读 · 0 评论 -
利用Java实现HDFS文件上传下载
文章目录利用Java实现HDFS文件上传下载1、pom.xml配置2、创建与删除3、文件上传4、文件下载利用Java实现HDFS文件上传下载1、pom.xml配置<!--配置--><properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.sour原创 2022-02-05 11:03:26 · 3101 阅读 · 0 评论 -
hadoop一键关闭脚本
hadoop一键关闭脚本#!/bin/bashjps>tmp.txtNN=`cat tmp.txt|grep -w NameNode`DN=`cat tmp.txt|grep -w DataNode`SNN=`cat tmp.txt|grep -w SecondaryNameNode`RM=`cat tmp.txt|grep -w ResourceManager`NM=`cat tmp.txt|grep -w NodeManager`JHS=`cat tmp.txt|grep -w J原创 2022-01-07 00:40:49 · 777 阅读 · 0 评论 -
hadoop一键启动脚本
Hadoop一键启动脚本#!/bin/bashjps>tmp.txtNN=`cat tmp.txt|grep -w NameNode`DN=`cat tmp.txt|grep -w DataNode`SNN=`cat tmp.txt|grep -w SecondaryNameNode`RM=`cat tmp.txt|grep -w ResourceManager`NM=`cat tmp.txt|grep -w NodeManager`JHS=`cat tmp.txt|grep -w J原创 2022-01-06 23:40:31 · 960 阅读 · 0 评论 -
MapReduce之job配置信息介绍
一.jobhadoop中的MapReduce可以使用Java进行MapReduce的逻辑撰写。其中就需要job进行相关配置。job作为MapReduce的配置信息以及启动项直接打包成jar包,hadoop可以运行这个jar包实现mapreduce的功能。本文主要从源码中,将job的配置项信息提取出来,希望对大家对于hadoop的学习和工作有所帮助。二、job的方法详细介绍返回值方法描述StringgetTrackingURL()获取将显示某些作业进度信息的 URLStr原创 2022-01-05 23:11:39 · 1316 阅读 · 0 评论 -
Hadoop搭建配置信息
一、etc/hadoop/core-site.xml参数value描述fs.defaultFS名称节点 URIhdfs://host:port 主机:端口io.file.buffer.size131072序列文件中使用的读/写缓冲区的大小。二、etc/hadoop/hdfs-site.xml1、NameNode的配置:参数value描述dfs.namenode.name.dir本地文件系统上的路径,其中 NameNode 永久存储命名空原创 2022-01-01 11:47:52 · 819 阅读 · 0 评论 -
利用shell实现hadoop3.1.3单机集群的搭建
利用shell实现hadoop单机集群的搭建1、材料准备一个联网的liunx虚拟机yum环境配置完毕(关于yum环境搭建,请查看本人文章利用自动化脚本实现Linux的yum仓库本地镜像和远程华为镜像挂载)jdk环境搭建完毕hadoop3.1.3的linux编译的压缩包2、自动化安装脚本#hadoop单节点的自动化脚本#环境预装yum install -y epel-releaseyum install -y psmisc nc net-tools rsync vim lrzsz nt原创 2021-12-30 19:00:27 · 535 阅读 · 0 评论 -
HDFS的NameNode节点信息管理(元数据)
HDFS的NameNode信息1、NameNode的信息存放地址NameNode存储DataNode的元数据,NameNode主要是用于维护DataNode信息。它存储在hadoop文件夹下data/dfs/name/current/,其中以fsimage开头的文件主要存储目录、文件名称及其依赖关系,以edits开头的文件主要存储尚未来得及合并的日志记录ls hadoop/data/dfs/name/current#------------------------------------------原创 2021-12-30 18:43:08 · 2622 阅读 · 0 评论 -
hadoop的HDFS的shell命令大全(一篇文章就够了)
HDFS的shell命令1、安全模式安全模式:集群启动时,DN所有的DN都必须向MM汇报磁盘使用状态和block存储信息。在此之前出于对hdfs的保护,会禁止访问hdfs,此状态为安全模式1.查看安全模式状态#查看安全模式状态hdfs dfsasmin --safemode get#-状态-on|off#-----2.手工开启安全模式状态#手工进入安全模式hdfs dfsasmin --safemode enter3.手工关闭安全模式状态#手工退出安全模式hdfs dfsas原创 2021-12-30 18:40:42 · 23666 阅读 · 2 评论 -
Hadoop服务开启与关闭及其源码介绍
服务开启与关闭1、开启关闭所有服务(不推荐)#开启所有服务start-all.sh#关闭所有服务stop-all.sh2、开启Hadoop所有服务★★★#开启HDFS服务start-dfs.sh#------------------------------------------------------------------Starting namenodes on [single01]Last login: Wed Dec 29 17:17:39 CST 2021 from 19原创 2021-12-30 18:38:35 · 2620 阅读 · 0 评论 -
Hadoop三剑客
Hadoop三剑客1、HDFS:Hadoop的文件操作系统HDFS主要是基于谷歌GFS演变过来的,主要实现数据的存储和管理1.NameNodeNameNode主要存储文件的元数据 、每个文件的块列表和 块所在的DataNode元数据: 元数据是描述数据的数据,包括有:文件名、文件目录结构、文件属性(生产时间、副本数和文件权限)块列表: FileSystem的文件系统,通过这个文件系统可以查找到文件所在目录块所在的DataNode: 查找文件所在分片数2.DataNodeDataNode主原创 2021-12-30 18:36:18 · 1339 阅读 · 0 评论