大数据入门：各种大数据技术介绍

最新推荐文章于 2024-02-27 20:46:28 发布

大数据基础入门教程

最新推荐文章于 2024-02-27 20:46:28 发布

阅读量925

点赞数

文章标签：大数据大数据技术大数据开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mnbvxiaoxin/article/details/103737295

版权

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解大数据各种技术之间的关系，选择合适的语言。

大数据入门：各种大数据技术介绍

我们可以带着下面问题来阅读本文章：

1.hadoop都包含什么技术

2.Cloudera公司与hadoop的关系是什么，都有什么产品，产品有什么特性

3.Spark与hadoop的关联是什么？

4.Storm与hadoop的关联是什么？

hadoop家族

创始人：Doug Cutting

整个Hadoop家族由以下几个子项目组成：

Hadoop Common：

Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。详细可查看

Hadoop技术内幕深入解析HADOOP COMMON和HDFS架构设计与实现原理大全1-9章

HDFS：

是Hadoop应用程序中主要的分布式储存系统， HDFS集群包含了一个NameNode（主节点），这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode（数据节点，可以有很多）。HDFS针对海量数据所设计，所以相比传统文件系统在大批量小文件上的优化，HDFS优化的则是对小批量大型文件的访问和存储。下面为详细资料：

什么是HDFS及HDFS架构设计

HDFS+MapReduce+Hive快速入门

Hadoop2.2.0中HDFS为何具有高可用性

Java创建hdfs文件实例

MapReduce：

是一个软件框架，用以轻松编写处理海量（TB级）数据的并行应用程序，以可靠和容错的方式连接大型集群中上万个节点（商用硬件）。

详细可查看：

Hadoop简介(1):什么是Map/Reduce

Hadoop MapReduce基础

MapReduce工作原理讲解

手把手交你写Mapreduce程序实例并部署在Hadoop2.2.0上运行

Hive：

Apache Hive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase，基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。

<

最低0.47元/天解锁文章

大数据基础入门教程

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据入门：各种大数据技术介绍

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解大数据各种技术之间的关系，选择合适的语言。我们可以带着下面问题来阅读本文章：1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么，都...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。