Hadoop入门体系介绍（1）

最新推荐文章于 2024-07-26 16:18:43 发布

方圆説

最新推荐文章于 2024-07-26 16:18:43 发布

阅读量257

点赞数

分类专栏： Hadoop 文章标签：大数据 Hadoop 大数据入门大数据学习

本文链接：https://blog.csdn.net/weixin_37673308/article/details/99611021

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hadoop体系介绍

1. Hadoop快速入门

1.1 数据

数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。数据可以是连续的值，比如声音、图像，称为模拟数据。也可以是离散的，如符号、文字，称为数字数据。在计算机系统中，数据以二进制信息单元 0,1 的形式表示。

1.2 大数据

1.2.1 概念

指的是传统数据处理应用软件不足以处理（存储和计算）它们的大而复杂的数据集
最基本的衡量：大小数据量最小的基本单位是 bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB
在这里插入图片描述
据国际数据公司(IDC)统计，全球数据总量预计 2020 年达到 44ZB，中国数据量将达到 8060EB，占全球数据总量的 18%

1.2.2 大数据特点

容量大，种类多，速度快，价值高

容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息新浪微博，3 亿用户，每天上亿条微博朋友圈，8 亿用户，每天亿级别朋友圈
种类（Variety）：数据类型的多样性，包括文本，图片，视频，音频结构化数据：可以用二维数据库表来抽象，抽取数据规律半结构化数据：介于结构化和非结构化之间，主要指 XML，HTML等，也可称非结构化非结构化数据：不可用二维表抽象，比如图片，图像，音频，视频等
速度（Velocity）：指获得数据的速度以及处理数据的速度数据的产生呈指数式爆炸式增长处理数据要求的延时越来越低
价值（Value）：合理运用大数据，以低成本创造高价值综合价值大，隐含价值大单条数据记录无价值，无用数据多
【总结】： 1、数据量大，处理难度大，但是蕴含价值也大 2、数据种类多样，更加个性化，针对不同数据源进行多样化的方式处理，结果更精确 3、要求对数据进行及时处理，追求更极致更完善的用户体验 4、数据成为新的资源，掌握数据就掌握了巨大的财富
大数据崛起的根本原因： 1、数据生成的速度呈指数式爆炸增长 2、数据的存储成本指数下降 3、流动数据增加，云端数据增加 4、企业可用数据资源增大

1.2.3 大数据价值

在总数据量相同的情况下，与个别分析独立的小型数据集（Data set）相比，将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性，可用来政治经济国庆调控、察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等，这样的用途正是大型数据集盛行的原因

1.3 Hadoop 的产生背景

Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题
2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案 1、分布式文件系统GFS，可用于处理海量网页的存储 2、分布式计算框架 MapReduce，可用于处理海量网页的索引计算问题 3、分布式数据库 BigTabl，每一张表可以存储上 billions 行和 millions 列
Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce，并从 Nutch 中剥离成为独立项目 Hadoop，到 2008 年 1 月，Hadoop 成为 Apache 顶级项目，迎来了它的快速发展期

1.4 什么是Hadoop

Hadoop 是 Apache 旗下的一套开源软件平台
Hadoop 提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
Hadoop 的核心组件有
A．Common（基础功能组件）（工具包，RPC 框架）JNDI 和 RPC
B．HDFS（Hadoop Distributed File System分布式文件系统）
C．YARN（Yet Another Resources Negotiator 运算资源调度系统）
D．MapReduce（Map 和 Reduce 分布式运算编程框架）
广义上来说，Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
官网介绍：http://hadoop.apache.org/

1.5 Hadoop在大数据和云计算中的位置与关系

云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS（软件即服务）等业务模式，把强大的计算能力提供给终端用户
现阶段，云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
而 Hadoop 则是云计算的 PaaS 层的解决方案之一，并不等同于 PaaS，更不等同于云计算本身

1.6 Hadoop技术应用框架概览

1.6.1 Hadoop应用于数据服务基础平台建设

在这里插入图片描述

1.6.2 Hadoop用于用户画像

在这里插入图片描述

1.6.3 Hadoop用于网站点击数据挖掘

在这里插入图片描述
最后总结：hadoop 并不会跟某个具体的行业或者某个具体的业务挂钩，它只是一种用来做海量数据分析处理的工具

1.7 Hadoop 生态圈以及各组成部分的简介

在这里插入图片描述
重点组件：
HDFS：Hadoop 的分布式文件存储系统
MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型
Hive：基于 Hadoop 的类 SQL 数据仓库工具
HBase：基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper：分布式协调服务组件
Mahout：基于MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban：工作流调度引擎
Sqoop：数据迁入迁出工具
Flume：日志采集工具

1.8 Hadoop就业情况及所需技能要求

1.8.1 Hadoop 整体行业情况

A、大数据产业已纳入国家十三五规划
B、各大城市都在进行智慧城市项目建设，而智慧城市的根基就是大数据综合平台
C、互联网时代数据的种类，增长都呈现爆发式增长，各行业对数据的价值日益重视
D、相对于传统 JAVAEE 技术领域来说，大数据领域的人才相对稀缺
E、随着现代社会的发展，数据处理和数据挖掘的重要性只会增不会减，因此，大数据技术是一个尚在蓬勃发展且具有长远前景的领域

1.8.2 Hadoop就业职位要求

大数据是个复合专业，包括应用开发、软件平台、算法、数据挖掘等，因此，大数据技术领域的就业选择是多样的，但就 Hadoop 而言，通常都需要具备以下技能或知识
1、硬实力

A、Hadoop 分布式集群的平台搭建
B、Hadoop 分布式文件系统 HDFS 的原理理解及使用
C、Hadoop 分布式运算框架 MapReduce 的原理理解及编程
D、MySQL 数据库，Hive 数据仓库工具的熟练应用
E、Flume、Sqoop、Oozie/Azkaban 等辅助工具的熟练使用
F、Shell/Python 等脚本语言的开发能力
2、软实力
A、解决问题的能力（调试，阅读文档）
B、沟通协调能力（寻求帮助）
C、学习提升自己的能力（自我提高）
D、组织管控能力（管理能力）

1.8.4 Hadoop相关职位的薪资水平

大数据技术或具体到 HADOOP 的就业需求目前主要集中在北上广深一线城市，薪资待遇普遍高于传统 JAVAEE 开发人员，以北京为例：
北京 Hadoop：
在这里插入图片描述
北京Spark：

2.分布式系统概述

PS：由于大数据技术领域的各类技术框架基本上都是分布式系统，因此，理解 hadoop、storm、 spark 等技术框架，都需要具备基本的分布式系统概念

概念讲解：

A．集群 + 负载均衡
B．分布式
1、该软件系统会划分成多个子系统或模块，各自运行在不同的机器上，子系统或模块之间通过网络通信进行协作，实现最终的整体功能
2、比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。
【总结】：利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统