Hadoop,HDFS

最新推荐文章于 2024-10-04 18:47:42 发布

Zrf@

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量161

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_41943637/article/details/105354041

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop 的核心组件

A．Common（基础功能组件）（工具包，RPC 框架）JNDI 和 RPC
B．HDFS（Hadoop Distributed File System 分布式文件系统）
C．YARN（Yet Another Resources Negotiator 运算资源调度系统）
D．MapReduce（Map 和 Reduce 分布式运算编程框架）
Hadoop :利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理Hive™：一个数据仓库基础设施，提供了数据总结和特别查询
ZooKeeper™：一个高性能的分布式应用程序的协调服务
Spark™：Hadoop 数据的快速、通用的计算引擎。Spark 提供了一个简单的和丰富的编程模型，支持广泛的应用程序，包括 ETL、机器学习、流处理和图计算
Oozie/Azkaban：工作流调度引擎
Sqoop：数据迁入迁出工具
MapReduce : 定制开发 MapReduce 程序运行于 Hadoop 集群，或者专门数据收集工具也能进行数据预处理

数据处理过程

A、数据采集：定制开发采集程序，或使用开源框架 Flume 或者 LogStash
B、数据预处理：定制开发 MapReduce 程序运行于 Hadoop 集群，或者专门数据收集工具也能进行数据预处理
C、数据仓库技术：基于 Hadoop 之上的 Hive
D、数据导出：基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化：定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析：Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive，或者 Spark，Flink
G、整个过程的流程调度：Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品
在这里插入图片描述

在这里插入图片描述

HDFS 基础使用

shell命令

-getmerge
功能：合并下载多个文件
示例：如 hdfs 的目录 /aaa/下有多个文件:log.1, log.2,log.3,…
hadoop fs -getmerge /aaa/log.* ./log.sum
-copyFromLocal
功能：从本地文件系统中拷贝文件到 hdfs 文件系统去
示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能：从 hdfs 拷贝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz