Hadoop的介绍

小汤TYT

已于 2022-07-08 10:38:56 修改

阅读量658

点赞数

分类专栏：大数据Hadoop集群文章标签： hadoop 大数据 mapreduce

于 2022-07-07 19:11:41 首次发布

本文链接：https://blog.csdn.net/tang5615/article/details/125664051

版权

大数据Hadoop集群专栏收录该内容

4 篇文章 22 订阅

订阅专栏

Hadoop的介绍

文章目录

Hadoop的介绍
一、大数据的概述
二、Hadoop概述
三、Hadoop的生态体系

一、大数据的概述

1.大数据是巨量的数据。
2.大数据有四个特征。
（1）Volume 大量
（2）Variety 多样，结构化、非结构化、半结构化数据
（3）Velocity 高速
（4）Value 价值
3.研究大数据，最重要的意义就是预测。
4.大数据应用的场景
（1）医疗行业的应用—优化医疗方案，提高治疗方法；有效预防疾病
（2）金融行业—精准营销，风险把控，决策支持，服务创新，产品创新
（3）零售行业—精准定位市场需求，支撑行业收益管理、挖掘行业的新需

二、Hadoop概述

1.伴随着数据的开始增长，数据的分析和存储变得越来越困难，所以Google提供了三驾马车来处理大数据。
（1）MapReduce:开源分布式管理系统
（2）Big Table: 一个大型的分布式数据库
（3）GFS:分布式文件系统
2.三大技术，具体表现在：
（1）减低成本，能用PC机，不需要用大型机
（2）软件容错，硬件故障视为常态，提供软件保证可靠性
（3）简化并行分布式计算，无须控制节点同步和数据交换
3.Hadoop就是受到这三大技术启发创造的，属于Apache基金会的项目
4.Hadoop的优势
Hadoop作为分布式计算平台，能够处理海量的数据，并数据进行分析。
优点：（1）扩容能力强，是高度可扩展的存储平台。
（2）成本低，可以在普通的机器部署。
（3）高效率，可以在多个节点并发处理数据。
（4）可靠性，多数据副本。
（5）容错性，发生故障，存在另外一份副本可用。

三、Hadoop的生态体系

1.Hadoop是一个计算平台，包含很多子系统。
（1）分布式存储系统（HDFS）
HDFS是Hadoop的分布式文件系统，是分布式计算中数据存储管理基础。
（2）MapReduce分布式计算框架
用于进行大规模数据集（大于1TB）的并行运算，Map对数据指定元素进行操作，生成键值对形式的中间结果；Reduce对中间结果相同键进行规约，得出最后结果。
（3）Yarn资源管理平台
为上层应用提供统一的资源管理和调度。
（4）Sqoop数据迁移工具
可以把关系数据库例如MySQL数据导入HDFS,也可以把HDFS导出关系数据库。
（5）Mahout数据挖掘算法库
提供机器学习领域算法的实现
（6）HBase分布式数据库
针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
（7) Zookeeper分布式协调服务
提供配置维护、域名服务、分布式同步、组服务等用于构建分布式应用，减应用程序的协调任务。
（8）Hive基于Hadoop的数据仓库
结构化数据文件映射数据库表，将SQL语句转换为MapReduce任务进行运行。
（9）Flume日志收集工具
是一个高可用的，高可靠的，分布式的海量日志采集、聚合和转输的系统。
2.Hadoop发行版本分为开源社区和商业版。
3.HDFS是由一个NameNode和多个DataNode组成，DataNode负责存储数据，NameData决定数据存储到哪个DataNode（节点）。