大数据开发--Hadoop
文章平均质量分 73
qq_46324053
这个作者很懒,什么都没留下…
展开
-
Hadoop (入门) -- 第四天
代理服务器,即Web应用代理是YARN的一部分。这是因为,YARN在运行时会提供一个WEB UI 站点(同HDFS的WEB UI站点一样)可供用户在浏览器内查看YARN的运行信息。②中心调度 -> 步骤执行模式(大数据体系的Spark、Flink等):由一个节点作为中心调度管理者,将任务划分为几个具体步骤,管理者安排每个机器执行任务,最终得到结果数据。①分散 -> 汇总模式(MapReduce):将数据分片,多台服务器各自负责一部分数据处理,然后将各自的结果,进行汇总处理,最终得到想要的计算结果。原创 2023-05-24 09:57:01 · 44 阅读 · 0 评论 -
Hadoop(入门) -- 第三天
②中心化模式(主从模式):有一个中心节点(服务器)来统筹其他服务器的工作,统一指挥,统一调派,避免混乱。①NameNode:HDFS系统的主角色,是一个独立的进程,负责管理HDFS整个文件系统,负责管理DataNode。②DataNode:HDFS系统的从角色,是一个独立进程,主要负责数据的存储,即存入数据和取出数据。注:一个典型的HDFS集群,就是由1个DataNode加若干个(至少一个)DataNode组成。注:Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。原创 2023-05-19 15:37:32 · 112 阅读 · 0 评论 -
Hadoop(入门) -- 第一天
①NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的快列表和块所在的DataNode等。④Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。HBase 不同于一般的关系数据库,2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进。原创 2023-04-20 11:23:26 · 32 阅读 · 0 评论 -
Hadoop(入门)--第二天
1)Hadoop官方网站:http://hadoop.apache.org/2)Hadoop运行模式包括:本地模式、伪分布模式、完全分布模式本地模式:单机运行,生产环境不用伪分布模式:单机运行,具备Hadoop集群的所有功能,一台服务器模拟一个分布式得环境。个别缺钱得公司用来测试,生产环境不用完全分布式模式:多台服务器组成分布式环境。生产环境使用。原创 2023-04-20 16:15:37 · 51 阅读 · 0 评论