Hadoop 框架学习笔记之整体认知

本文介绍了Hadoop作为大数据处理的核心框架,详细阐述了大数据的定义、特点,以及Hadoop的起源、发展、特点和优缺点。Hadoop提供了一个分布式存储和计算平台,适用于大规模数据处理,但存在低延迟访问、小文件存储效率和多用户写入等问题。此外,文章还提及了Hadoop在企业中的不同发行版本及其应用场景。
摘要由CSDN通过智能技术生成

Hadoop 框架学习笔记

  • 大数据技术解决什么问题?

    主要解决海量数据存储和计算。

  • Hadoop的广义和狭义之分?

    狭义:Hadoop 由三部分组成:HDFS:分布式文件系统存储 MapReduce:分布式离线计算框架 YARN:资源调度框架

    广义:不仅是Hadoop框架,之外还有周边框架,比如 Flume:日志数据采集;Sqoop:关系型数据库的采集、导出;Hive:深度依赖Hadoop框架完成计算(SQL) Hbase:大数据领域的数据库

    广义的Hadoop是一个大数据生态圈。

大数据简介

大数据的定义

大数据是指无法在一定时间范围内用常规的软件工具进行捕捉,管理和处理数据集合,是需要新处理方法,才能有更强的决策力、洞察发现力和流程化能力的海量、高增长率和多样化的信息资产。

大数据的特点

大数据的特点可以用IBM 曾经提出的 “5V”来描述,如下:

Volume Velocity Variety Veracity Value

  • 大量

    采集、存储和计算的数据量都非常大。

    计算机存储单位一般用B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB来表示,换算关系:

    1GB = 1024MB

    1TB = 1024GB

    1PB = 1024TB

    1EB = 1024PB

    1ZB = 1024EB

    1YB = 1024ZB

    1BB = 1024YB

    1NB = 1024BB

    1DB = 1024NB

以PB为例,PB级别数据量有多大?是怎样的一个概念?

假如手机播放MP3每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以存放2000年。

1PB 相当于50%的全美学术研究图书馆书咨询内容。

(1)1986年,全球只有0.02EB也就是约21000TB的数据量

(2)2007 年,全球也就280EB,也就是约300000000的数据量,翻了14000倍

(3&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值