大数据技术之Hadoop-大数据分布式

一 ,数据导论

1、数据是什么

        人类的行为及产生的事件的一种记录称之为数据

2、数据的价值

  • 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
  • 比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。

二 ,大数据诞生

1、大数据的诞生是跟随着互联网的发展的

  • 当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理
  • 基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。
  • 2. Apache Hadoop对大数据体系的意义

三,大数据概述

1、什么是大数据

        狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系

        广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能

2、大数据的特征

大数据有5个主要特征,称之为:5V特性

 

Volume 体积-数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别起步

Variety 种类-种类、来源多样化

  • 种类:结构化、半结构化、非结构化
  • 来源:日志文本、图片、音频、视频

Value 价值-低价值密度

  • 深度复杂的挖掘分析需要机器学习参与
  • 信息海量但是价值密度低

Velocity 速度-速度快

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

Veracity 质量-数据的质量

  • 数据的准确性
  • 数据的可信赖度体积

3、大数据的核心工作

大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

数据存储        可以妥善存储海量待处理数据

数据计算        可以从海量数据中计算出背后的价值

数据传输        协助在各个环节中完成海量数据的传输

四,大数据软件生态

1、数据存储

2、数据计算

3、数据传输

五,Apache Hadoop概述

1、什么是Hadoop

HadoopApache软件基金会下的顶级开源项目,用以提供:

  • 分布式数据存储
  • 分布式数据计算
  • 分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

2、Hadoop的功能

通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:

HDFS组件

  • HDFS是Hadoop内的分布式存储组件
  • 可以构建分布式文件系统用于数据存储

MapReduce组件

  • MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序

YARN组件

  • YARN是Hadoop内分布式资源调度组件。
  • 可供用户整体调度大规模集群的资源使用。

3、Hadoop发行版本

Apache开源社区版本

http://hadoop.apache.org/

商业发行版本 

  • CDH(Cloudera's Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版
  • HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
  • 星环,国产商业版,星环公司出品,在国内政企使用较多

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值