项目实训记录3-技术选型-hadoop入门(1)

最新推荐文章于 2024-06-12 09:20:43 发布

shy2218

最新推荐文章于 2024-06-12 09:20:43 发布

阅读量2k

点赞数

分类专栏： 2022项目实训-信息办数据整理文章标签： python 开发语言后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shy2218/article/details/123851412

版权

2022项目实训-信息办数据整理专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Hadoop是一个分布式系统的基础架构，在用户不需要了解底层分布式细节的情况下，进行分布式程序的开发。从而利用分布式集群进行高速的存储和运算。
Hadoop的主要模块
HDFS:分布式存储系统
YARN: 任务调度和集群资源管理
MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统
Hbase：分布式的、面向列的开源数据库
Hive：基于Hadoop的一个数据仓库工具
Pig：运行在Hadoop上，对大型数据集进行分析和评估的平台
Spark：Hadoop数据快速通用的计算引擎
ZooKeeper: 一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件。
方案是把最原始的数据，存入hadoop中。定期做清洗和分析，把处理好的数据放到mysql库里，供web应用读取，展示到页面上。
（参考侵删）
HDFS：分布式文件系统，引入存放文件元数据信息的服务器和实际存放数据的服务器DataNode，对数据进行分布式存储和读取
MapReduce：计算框架，核心思想是把计算任务分配给集群内的服务器里进行执行，通过对计算任务的拆分，再根据任务调度器对任务进行分布式计算。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
项目实训记录3-技术选型-hadoop入门(1)

Hadoop是一个分布式系统的基础架构，在用户不需要了解底层分布式细节的情况下，进行分布式程序的开发。从而利用分布式集群进行高速的存储和运算。Hadoop的主要模块HDFS:分布式存储系统YARN: 任务调度和集群资源管理MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统Hbase：分布式的、面向列的开源数据库Hive：基于Hadoop的一个数据仓库工具Pig：运行在Hadoop上，对大型数据集进行分析和评估的平台Spark：Hadoop数据快速通用的计算引擎.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。