Bug专员-CSDN博客

原创 Hadoop全分布式安装

配置hadoop01免密登陆hadoop02：ssh-copy-id。配置hadoop01免密登陆hadoop03：ssh-copy-id。配置hadoop02免密登陆hadoop01：ssh-copy-id。配置hadoop02免密登陆hadoop03：ssh-copy-id。配置hadoop03免密登陆hadoop01：ssh-copy-id。配置hadoop03免密登陆hadoop02：ssh-copy-id。配置hadoop02自身免密登陆：ssh-copy-id。

2023-01-16 09:09:31 116

原创 Hadoop的伪分布式安装

hadoop.tmp.dir /usr/local/software/hadoop-2.7.1/tmp-- 指定Yarn的主节点 - resourcemanager -->yarn.resourcemanager.hostnamehadoop01

2023-01-16 08:59:35 153

原创 Hadoop简介

NameNode收到这些信息之后，会做汇总和检测，检测数据是否完整，复本数量是否达到要求，如果检测出现问题，HDFS会进入安全模式，在安全模式做数据或副本的复制，直到修复完成后，安全模式自动退出。HDFS中的文件在物理上是分块存储（block）的，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M，不足128M则本身就是一块。HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据 (比如 TB 和 PB)。

2023-01-16 08:57:02 362

原创 Flink概述

Flink 本身定位是一个大数据流式处理引擎，处理的是流式数据，也就是“数据流”（Data Flow）。数据并不是收集好的，而是像水流一样，是一组有序的数据序列，逐个到来、逐个处理。Flink 适合的场景，其实也就是需要实时处理数据流的场景。

2023-01-09 13:28:00 210

原创【大数据开发】数据开发必要知识及框架流程图

Hadoop（目前是最重要的）HDFS（Hadoop Distributed File System ），意为：Hadoop分布式文件系统。源自谷歌的论文：《TheGoogle File System》，由Doug Cutting 设计实现的。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。

2023-01-07 12:45:28 3970

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hadoop全分布式安装

原创 Hadoop的伪分布式安装

原创 Hadoop简介

原创 Flink概述

原创 【大数据开发】数据开发必要知识及框架流程图

空空如也

空空如也

原创【大数据开发】数据开发必要知识及框架流程图