![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 93
码没农
这个作者很懒,什么都没留下…
展开
-
大数据之数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。原创 2023-06-08 00:00:22 · 455 阅读 · 0 评论 -
大数据面经笔记
如果 NameNode 宕机了,可能会导致 HDFS 不可用。在这种情况下,需要一些步骤来恢复数据并重新启动 HDFS。首先,通过备份机制和规范的操作方法,确保您有最新版本的 Fsimage 和编辑日志文件。手工启动一个 Secondary NameNode,以便将保存在 Fsimage 和编辑日志中的名称空间信息合并到新的 Fsimage 文件中。要做到这一点,运行 "hadoop namenode -checkpoint"命令可以强制执行 checkpoints 并减少数据损失风险。原创 2023-06-07 23:06:20 · 211 阅读 · 0 评论 -
大数据之Yarn
ResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。NodeManager以心跳的方式向ResourceManager汇报资源使用情况(目前主要是CPU和内存的使用情况)。RM只接受NM的资源回报信息,对于具体的资源处理则交给NM自己处理。YARN Scheduler根据application的请求为其分配资源,不负责application job的监控、追踪、运行状态反馈、启动等工作。原创 2023-06-07 23:03:04 · 150 阅读 · 0 评论 -
Zookeeper
zookeeper是一个标准的集群。(MS架构)原创 2023-06-07 20:36:31 · 158 阅读 · 0 评论 -
大数据学习之MapReduce2
/ 1 获取job// 2 设置jar// 3 关联mapper和reducer// 4 设置mapper输出的key和value类型// 5 设置最终数据输出的key和value类型// 指定自定义分区器// 同时指定相应数量的ReduceTask// 6 设置数据的输入路径和输出路径// 7 提交job0 : 1);bean对象做为key传输,需要实现接口重写compareTo方法,就可以实现排序。@Override。原创 2023-05-30 22:53:01 · 186 阅读 · 0 评论 -
大数据学习之MapReduce1
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。详见后面排序案例。原创 2023-05-26 16:59:25 · 155 阅读 · 1 评论 -
大数据Hadoop学习之HDFS
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。原创 2023-05-25 15:59:58 · 382 阅读 · 0 评论 -
大数据Hadoop学习之运行模式2
常用整体启动/停止HDFS整体启动/停止YARN。原创 2023-05-23 23:23:17 · 84 阅读 · 1 评论 -
大数据Hadoop学习之运行模式1
scp可以实现服务器与服务器之间的数据拷贝。core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在这个路径上,用户可以根据项目需求重新进行修改配置。原创 2023-05-23 16:15:10 · 210 阅读 · 1 评论 -
大数据hadoop学习之运行环境搭建
注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的。注意:这一行不要直接放到root行下面,因为所有用户都属于wheel组,你先配置了atguigu具有免密功能,但是程序执行到%wheel行时,该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面。关闭虚拟机hadoop100。原创 2023-05-22 10:10:34 · 207 阅读 · 1 评论