- 博客(5)
- 收藏
- 关注
原创 Hadoop全分布式安装
配置hadoop01免密登陆hadoop02:ssh-copy-id。配置hadoop01免密登陆hadoop03:ssh-copy-id。配置hadoop02免密登陆hadoop01:ssh-copy-id。配置hadoop02免密登陆hadoop03:ssh-copy-id。配置hadoop03免密登陆hadoop01:ssh-copy-id。配置hadoop03免密登陆hadoop02:ssh-copy-id。配置hadoop02自身免密登陆:ssh-copy-id。
2023-01-16 09:09:31
116
原创 Hadoop的伪分布式安装
hadoop.tmp.dir /usr/local/software/hadoop-2.7.1/tmp-- 指定Yarn的主节点 - resourcemanager -->yarn.resourcemanager.hostnamehadoop01
2023-01-16 08:59:35
150
原创 Hadoop简介
NameNode收到这些信息之后,会做汇总和检测,检测数据是否完整,复本数量是否达到要求,如果检测出现问题,HDFS会进入安全模式,在安全模式做数据或副本的复制,直到修复完成后,安全模式自动退出。HDFS中的文件在物理上是分块存储(block)的,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M,不足128M则本身就是一块。HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如 TB 和 PB)。
2023-01-16 08:57:02
361
原创 Flink概述
Flink 本身定位是一个大数据流式处理引擎,处理的是流式数据,也就是“数据流”(Data Flow)。数据并不是收集好的,而是像水流一样,是一组有序的数据序列,逐个到来、逐个处理。Flink 适合的场景,其实也就是需要实时处理数据流的场景。
2023-01-09 13:28:00
209
原创 【大数据开发】数据开发必要知识及框架流程图
Hadoop(目前是最重要的)HDFS(Hadoop Distributed File System ),意为:Hadoop分布式文件系统。源自谷歌的论文:《TheGoogle File System》,由Doug Cutting 设计实现的。是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。
2023-01-07 12:45:28
3879
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人