
大数据/Hadoop
文章平均质量分 78
大数据:Hadoop、HDFS、YARN、Zookeeper、HA
u013250861
这个作者很懒,什么都没留下…
展开
-
Zookeeper:Zookeeper可视化神器 prettyzoo
PrettyZoo是一个基于 Apache Curator 和JavaFX实现的 Zookeeper 图形化管理客户端。使用了 Java 的模块化(Jigsaw)技术,并基于 JPackage 打包了多平台的可运行文件(无需要额外安装 Java 运行时)。目前已提供了 mac(dmg 文件)、Linux(deb 和 rpm 文件)、windows(msi文件) 的安装包,下载地址。原创 2023-04-04 20:56:53 · 195 阅读 · 0 评论 -
大数据-Hadoop:HDFS、YARN、MapReduce三者关系
HDFS、YARN、MapReduce三者关系。原创 2023-04-02 09:48:19 · 344 阅读 · 0 评论 -
大数据:Hadoop简介
尚硅谷大数据技术之Hadoop(入门)(作者:尚硅谷研究院)版本:V4.0 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH。2008Hortonworks文档较好,对应产品HDP。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP。 1)Apache Hadoop官网地址:http://hadoop.apache.o原创 2023-04-01 19:38:53 · 513 阅读 · 0 评论 -
大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】
# 一、HDFS概述## 1、HDFS产出背景及定义- 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切**需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。**- HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。- HD原创 2021-01-14 00:14:51 · 2570 阅读 · 0 评论 -
大数据-Hadoop-HDFS(二):HDFS读写数据流程
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。(5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。(6)dn1原创 2023-04-01 12:49:29 · 117 阅读 · 0 评论 -
大数据-Hadoop-HDFS(三):NameNode(NN)、SecondaryNameNode(2NN)
但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。原创 2023-04-01 13:04:20 · 142 阅读 · 0 评论 -
大数据-Hadoop-HDFS(四):DataNode【数据完整性校验算法:crc、md5、sha1】【DataNode掉线时限:HDFS默认超过10分钟+30秒无心跳则死亡】
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。(4)常见的校验算法crc(32),md5(128),sha1(160)。原创 2023-04-01 16:12:39 · 652 阅读 · 0 评论 -
大数据-Hadoop-YARN:资源调度器【YARN负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序】
需求1:default队列占总内存的40%,最大资源容量占总资源60%,hive队列占总内存的60%,最大资源容量占总资源80%。1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的。)因为担心员工不小心,写递归死循环代码,把所有资源全部耗尽。每个框架的任务放入指定的队列(企业用的不是特别多)。):单队列,根据提交作业的先后顺序,先来先服务。快照,否则后续的案例,还需要重新准备集群。原创 2023-04-01 17:03:27 · 451 阅读 · 0 评论 -
大数据-Hadoop-MapReduce(一):离线数据编程分析框架【Java语言】【运算效率低;被SparkCore的RDD编程取代】【不擅长实时计算、不擅长流式计算、不擅长DAG计算】
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化。原创 2023-04-01 16:54:59 · 201 阅读 · 0 评论 -
大数据-Hadoop-MapReduce(二):MapReduce编程案例
将此案例打包成jar包:wordcount.jar,发送到Linux服务器节点上通过hadoop jar 命令运行。原创 2021-01-12 23:04:42 · 773 阅读 · 0 评论 -
大数据-Zookeeper(一):基于观察者模式设计的分布式服务管理框架【以树状节点存储、管理大家都关心的数据,接受各观察者的注册,一旦这些数据状态变化,ZK就通知各观察者】【与Hadoop独立】
Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。原创 2023-04-01 17:35:11 · 361 阅读 · 0 评论 -
大数据-Zookeeper(二):原理与搭建【对大数据平台中的各个模块进行集中配置和调度】
负责存储和管理分布式系统中各个进程与模块都关心的数据。原创 2021-01-12 23:03:45 · 1758 阅读 · 0 评论 -
大数据-Zookeeper(三):Zookeeper集群启动停止脚本【zk.sh】【将脚本复制到/usr/bin/中,以便全局调用】
1)在hadoop102的/home/wyr/bin目录下创建脚本。在脚本中编写如下内容。3)Zookeeper集群启动脚本。4)Zookeeper集群停止脚本。2)增加脚本执行权限。原创 2023-04-01 20:14:55 · 132 阅读 · 0 评论 -
大数据-Hadoop-搭建(一):搭建Hadoop完全分布式集群(在VMware中的Linux虚拟机)【CentOS6】【独立安装Apache Hadoop】
大数据-Hadoop:搭建Hadoop完全分布式集群(在VMware中的Linux虚拟机)一、VMware、Linux虚拟机环境准备1、网络配置1.1 查看网络IP和网关1.1.1 查看虚拟网络编辑器1.1.2 修改ip地址1.1.3 查看网关1.1.4 查看windows环境的中VMnet8网络配置(控制面板-网络和Internet-更改适配器选项)1.2 配置Linux系统的网络IP和网关1.2.1 查看当前网络IP1.2.2 修改当前Linux系统的IP地址为固定地址1.2.3原创 2021-01-14 00:15:37 · 1734 阅读 · 0 评论 -
大数据-Hadoop-搭建(二):搭建Hadoop完全分布式集群(在VMware中的Linux虚拟机)【CentOS7】【独立安装Apache Hadoop】
我们先配置电脑,再安装系统。原创 2023-04-02 09:59:48 · 381 阅读 · 0 评论 -
大数据-Hadoop-搭建-(三):CDH大数据全家桶【统一安装管理HDFS、YARN、Zookeeper、Kafka、Sqoop、Spark等】【6.3.3版以后开始收费】
Cloudera Manager是用于管理CDH群集的B/S应用程序。Cloudera Manager通过对CDH集群的每个部分提供细粒度的可视性和控制来设置企业部署的标准,使运营商能够提高性能,提高服务质量,提高合规性并降低管理成本。使用Cloudera Manager,可以轻松部署和集中操作完整的CDH堆栈和其他托管服务(Hadoop、Hive、Spark、Kudu)。其特点:应用程序的安装过程自动化,将部署时间从几周缩短到几分钟;并提供运行主机和服务的集群范围的实时监控视图;原创 2021-03-28 22:00:31 · 1318 阅读 · 0 评论 -
大数据-Hadoop-户管理界面:HUE(Hadoop User Experience)【将Hadoop中各种相关的软件(HDFS、Hive...)的操作界面融合在一起,形成一个统一的操作界面】
大数据-Hadoop-户管理界面:hue【是Hadoop的用户管理界面,通过词工具对大数据各个软件进行更加友好的操作】原创 2021-07-12 12:04:21 · 4260 阅读 · 0 评论 -
大数据-Hadoop-HA:High Availablity【高可用(7 * 24小时不中断服务)】【可选项】【HDFS的HA、YARN的HA】【占用资源多】【实现高可用最关键的策略:消除单点故障】
(1)所谓HA(High Availablity),即高可用(7 * 24小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。(3)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启。NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用。原创 2023-04-01 20:25:43 · 153 阅读 · 0 评论 -
Hadoop:群起脚本【xcall.sh】【一个命令启动/停止所有节点的Hadoop(NameNode,DataNode)、Yarn节点(ResourceManager, NodeManager)】
【代码】Hadoop:群起脚本【一个命令启动/停止所有节点的Hadoop(NameNode,DataNode)、Yarn节点(ResourceManager, NodeManager)】原创 2023-04-01 12:18:57 · 608 阅读 · 0 评论 -
Hadoop:格式化脚本【删除所有节点的所有数据,重新格式化HDFS】【使用Hadoop之前需要格式化】
NameNode的节点(比如:hadoop102节点)格式化NameNode。不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化。进程,并且要删除所有机器的。目录,然后再进行格式化。如果集群是第一次启动。原创 2023-04-01 12:22:05 · 1210 阅读 · 0 评论 -
Hadoop:分发脚本【xsync.sh】【循环复制文件到所有节点的相同目录下】
scp可以实现服务器与服务器之间的数据拷贝。原创 2023-04-01 12:29:44 · 243 阅读 · 0 评论