Hadoop
文章平均质量分 95
北方有你.
这个需求做不了.....
展开
-
Kettle
kettle的一些常见转换案例原创 2023-10-25 11:07:39 · 391 阅读 · 2 评论 -
Hadoop YARN
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。YARN功能说明资源管理系统:管理集群的硬件资源(内存、CPU等)调度平台:多个程序同时申请资源时,资源如何分配?–>调度规则(算法)通用:理论上支持各种计算程序(程序提交使用资源申请–>YARN分配资源–>使用结束释放资源)原创 2023-09-08 20:25:38 · 69 阅读 · 1 评论 -
Hadoop MapReduce
分布式计算是验证计算方法,和集中式计算是相对的。应对大数据计算任务时,集中式计算耗时耗力;分布式计算可以将该任务分解成若干的小部分,分配给多条计算机进行处理,计算效率大大提高。Hadoop Map Reduce是一个分布式计算框架,用于轻松编写分布式应用程序。以可靠、容错的方式并行处理大型硬件集群上的大量数据。MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。原创 2023-09-08 20:23:02 · 307 阅读 · 1 评论 -
HDFS分布式文件系统基础
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问和查找变得容易。文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念,用户不必关心数据底层存在硬盘哪里,只需要记住这个文件的所属目录和文件名即可;文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置。传统常见的文件系统底层不会横跨多台机器实现。带有抽象的目录树结构,树都是从/根目录开始往下蔓延;树中节点分为两类:目录和文件;原创 2023-09-05 13:12:24 · 88 阅读 · 1 评论 -
Hadoop 分布式安装部署
Hadoop官网:https://hadoop.apache.org/docs/r3.3.0/ 所有的配置文件目录:/export/server/hadoop-3.3.0/etc/hadoop。原创 2023-09-04 11:14:18 · 84 阅读 · 1 评论