Hadoop的介绍

Hadoop的介绍

一、大数据的概述

1.大数据是巨量的数据。
2.大数据有四个特征。

(1)Volume 大量
(2)Variety 多样,结构化、非结构化、半结构化数据
(3)Velocity 高速
(4)Value 价值
3.研究大数据,最重要的意义就是预测。
4.大数据应用的场景

(1)医疗行业的应用—优化医疗方案,提高治疗方法;有效预防疾病
(2)金融行业—精准营销,风险把控,决策支持,服务创新,产品创新
(3)零售行业—精准定位市场需求,支撑行业收益管理、挖掘行业的新需

二、Hadoop概述

1.伴随着数据的开始增长,数据的分析和存储变得越来越困难,所以Google提供了三驾马车来处理大数据。
(1)MapReduce:开源分布式管理系统
(2)Big Table: 一个大型的分布式数据库
(3)GFS:分布式文件系统
2.三大技术,具体表现在:
(1)减低成本,能用PC机,不需要用大型机
(2)软件容错,硬件故障视为常态,提供软件保证可靠性
(3)简化并行分布式计算,无须控制节点同步和数据交换
3.Hadoop就是受到这三大技术启发创造的,属于Apache基金会的项目
4.Hadoop的优势

Hadoop作为分布式计算平台,能够处理海量的数据,并数据进行分析。
优点:(1)扩容能力强,是高度可扩展的存储平台。
(2)成本低,可以在普通的机器部署。
(3)高效率,可以在多个节点并发处理数据。
(4)可靠性,多数据副本。
(5)容错性,发生故障,存在另外一份副本可用。

三、Hadoop的生态体系

1.Hadoop是一个计算平台,包含很多子系统。
(1)分布式存储系统(HDFS)
HDFS是Hadoop的分布式文件系统,是分布式计算中数据存储管理基础。
(2)MapReduce分布式计算框架
用于进行大规模数据集(大于1TB)的并行运算,Map对数据指定元素进行操作,生成键值对形式的中间结果;Reduce对中间结果相同键进行规约,得出最后结果。
(3)Yarn资源管理平台
为上层应用提供统一的资源管理和调度。
(4)Sqoop数据迁移工具
可以把关系数据库例如MySQL数据导入HDFS,也可以把HDFS导出关系数据库。
(5)Mahout数据挖掘算法库
提供机器学习领域算法的实现
(6)HBase分布式数据库
针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
(7) Zookeeper分布式协调服务
提供配置维护、域名服务、分布式同步、组服务等用于构建分布式应用,减应用程序的协调任务。
(8)Hive基于Hadoop的数据仓库
结构化数据文件映射数据库表,将SQL语句转换为MapReduce任务进行运行。
(9)Flume日志收集工具
是一个高可用的,高可靠的,分布式的海量日志采集、聚合和转输的系统。
2.Hadoop发行版本分为开源社区和商业版。
3.HDFS是由一个NameNode和多个DataNode组成,DataNode负责存储数据,NameData决定数据存储到哪个DataNode(节点)。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值