Hadoop以及组件介绍

最新推荐文章于 2024-08-29 18:12:59 发布

weixin_30565327

最新推荐文章于 2024-08-29 18:12:59 发布

阅读量859

点赞数 1

文章标签：大数据数据库人工智能

原文链接：http://www.cnblogs.com/yenpaul/p/10223828.html

版权

本文介绍了Hadoop，一个用于处理大数据的分布式计算开源软件，包括其核心组成部分HDFS和MapReduce。HDFS是分布式文件系统，适合一次性写入多次读取的数据，而MapReduce则是离线计算框架。此外，文章还提到了Hadoop生态系统中的Hive、HBase、Storm和Impala等组件，分别适用于结构化查询、非结构化数据存储、实时计算和快速查询。

摘要由CSDN通过智能技术生成

一、背景介绍

在接触过大数据相关项目的时候常常都会听到Hadoop这个东西，简单来说，他是一个用分布式计算来处理大数据的开源软件，下面包含了许多的组件和子项目，这篇文章将会介绍Hadoop的原理以及一些组件的应用。

二、准备工作

1、确认储存规模

有很多的大数据项目其实数据量跟本没这么大，跟本不需要到使用Hadoop这类的大数据软件，所以，第一步应该是先确认数据量有多大，真的MySQL跑的太久再去使用Hadoop就好。

2、确认数据类型

除了结构化数据以外，现在有些大数据项目需要处理的是一些非结构化数据，例如文本、音频、图像、视频之类的，针对这些非结构化的数据，需要事先做处理，再用相对应的软件进行储存。

3、确认数据源

数据源非常重要，首先要先确认数据是否可获取、可用，例如微信聊天记录这种的根本就获取不了，而且会触犯到隐私。有些数据需要先做持久化再导入到数据库内储存，如何获取想要的数据有时候不是直接从数据库里抓这么简单，在获取数据源的时候，也需要考虑数据的质量，否则会提高未来使用的难度。

三、Hadoop介绍

Hadoop的核心为HDFS（分布式文件系统）和MapReduce（离线计算框架）。简单来说，HDFS就是将要储存的文件分散在不同的硬盘上，并记录他们的位置，而MapReduce就是将计算任务分配给多个计算单元，下面针对这两个核心再做进一步的说明。

HDFS

HDFS已经成为现在大数据的储存标准，

最低0.47元/天解锁文章

weixin_30565327

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。