Hadoop入门体系介绍(1)

Hadoop体系介绍

1. Hadoop快速入门

1.1 数据

  数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字, 称为数字数据。 在计算机系统中,数据以二进制信息单元 0,1 的形式表示。

1.2 大数据

1.2.1 概念

  指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集
最基本的衡量:大小 数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB
在这里插入图片描述
  据国际数据公司(IDC)统计,全球数据总量预计 2020 年达到 44ZB,中国数据量将达到 8060EB, 占全球数据总量的 18%

1.2.2 大数据特点

容量大,种类多,速度快,价值高

  1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息 新浪微博,3 亿用户,每天上亿条微博 朋友圈,8 亿用户,每天亿级别朋友圈
  2. 种类(Variety):数据类型的多样性,包括文本,图片,视频,音频 结构化数据:可以用二维数据库表来抽象,抽取数据规律 半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML等,也可称非结构化 非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等
  3. 速度(Velocity):指获得数据的速度以及处理数据的速度 数据的产生呈指数式爆炸式增长 处理数据要求的延时越来越低
  4. 价值(Value):合理运用大数据,以低成本创造高价值 综合价值大,隐含价值大 单条数据记录无价值,无用数据多
    【总结】: 1、数据量大,处理难度大,但是蕴含价值也大 2、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确 3、要求对数据进行及时处理,追求更极致更完善的用户体验 4、数据成为新的资源,掌握数据就掌握了巨大的财富
    大数据崛起的根本原因: 1、数据生成的速度呈指数式爆炸增长 2、数据的存储成本指数下降 3、流动数据增加,云端数据增加 4、企业可用数据资源增大
1.2.3 大数据价值

  在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数 据集合并后进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等,这样的用途 正是大型数据集盛行的原因

1.3 Hadoop 的产生背景

  • Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网 页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题
  • 2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案 1、分布式文件系统GFS,可用于处理海量网页的存储 2、分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题 3、分布式数据库 BigTabl,每一张表可以存储上 billions 行和 millions 列
  • Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce,并从 Nutch 中剥离成为 独立项目 Hadoop,到 2008 年 1 月,Hadoop 成为 Apache 顶级项目,迎来了它的快速发 展期

1.4 什么是Hadoop

  1. Hadoop 是 Apache 旗下的一套开源软件平台
  2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分 布式处理
  3. Hadoop 的核心组件有
    A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
    B.HDFS(Hadoop Distributed File System分布式文件系统)
    C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
    D.MapReduce(Map 和 Reduce 分布式运算编程框架)
  4. 广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
  5. 官网介绍:http://hadoop.apache.org/
    在这里插入图片描述在这里插入图片描述

1.5 Hadoop在大数据和云计算中的位置与关系

  1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡 等传统计算机技术和互联网技术融合发展的产物。借助 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户
  2. 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
  3. 而 Hadoop 则是云计算的 PaaS 层的解决方案之一,并不等同于 PaaS,更不等同于云计算 本身

1.6 Hadoop技术应用框架概览

1.6.1 Hadoop应用于数据服务基础平台建设

在这里插入图片描述

1.6.2 Hadoop用于用户画像

在这里插入图片描述在这里插入图片描述

1.6.3 Hadoop用于网站点击数据挖掘

在这里插入图片描述
最后总结:hadoop 并不会跟某个具体的行业或者某个具体的业务挂钩,它只是一种用来做 海量数据分析处理的工具

1.7 Hadoop 生态圈以及各组成部分的简介

在这里插入图片描述
重点组件:
HDFS:Hadoop 的分布式文件存储系统
MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型
Hive:基于 Hadoop 的类 SQL 数据仓库工具
HBase:基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper:分布式协调服务组件
Mahout:基于MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具

1.8 Hadoop就业情况及所需技能要求

1.8.1 Hadoop 整体行业情况

A、大数据产业已纳入国家十三五规划
B、各大城市都在进行智慧城市项目建设,而智慧城市的根基就是大数据综合平台
C、互联网时代数据的种类,增长都呈现爆发式增长,各行业对数据的价值日益重视
D、相对于传统 JAVAEE 技术领域来说,大数据领域的人才相对稀缺
E、随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术 是一个尚在蓬勃发展且具有长远前景的领域

1.8.2 Hadoop就业职位要求

大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,大数据技术领 域的就业选择是多样的,但就 Hadoop 而言,通常都需要具备以下技能或知识
1、硬实力

  • A、Hadoop 分布式集群的平台搭建
  • B、Hadoop 分布式文件系统 HDFS 的原理理解及使用
  • C、Hadoop 分布式运算框架 MapReduce 的原理理解及编程
  • D、MySQL 数据库,Hive 数据仓库工具的熟练应用
  • E、Flume、Sqoop、Oozie/Azkaban 等辅助工具的熟练使用
  • F、Shell/Python 等脚本语言的开发能力
    2、软实力
  • A、解决问题的能力(调试,阅读文档)
  • B、沟通协调能力(寻求帮助)
  • C、学习提升自己的能力(自我提高)
  • D、组织管控能力(管理能力)
1.8.4 Hadoop相关职位的薪资水平

  大数据技术或具体到 HADOOP 的就业需求目前主要集中在北上广深一线城市,薪资待遇普 遍高于传统 JAVAEE 开发人员,以北京为例:
北京 Hadoop:
在这里插入图片描述
北京Spark:
在这里插入图片描述

2.分布式系统概述

PS:由于大数据技术领域的各类技术框架基本上都是分布式系统,因此,理解 hadoop、storm、 spark 等技术框架,都需要具备基本的分布式系统概念

概念讲解

  • A.集群 + 负载均衡
  • B.分布式
     1、 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或 模块之间通过网络通信进行协作,实现最终的整体功能
     2、 比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件 系统和分布式数据库系统等。
    【总结】:利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统

离线分析系统结构概述

PS:本环节主要感受数据分析系统的宏观概念及处理流程,初步理解 hadoop 等框架在其中 的应用环节,不用过于关注具体实现细节
离线数据分析流程: 一个应用广泛的数据分析系统:web 日志数据挖掘
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

基于Hadoop技术的大数据就业岗位数据分析 作者:梁天友 邱敏 来源:《电脑知识与技术》2021年第31期 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第1页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第1页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第2页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第2页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第3页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第3页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第4页。 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第4页。 摘要:大數据是一门新兴技术,为了进一步了解与之有关的就业岗位情况,通过使用Java程序爬取出真实的大数据就业岗位数据,再结合Hadoop技术进行统计分析,最后使用可视化技术呈现大数据技术岗位不同地区招聘的薪资、数量、职业技能需求等详细信息,为各应聘者做参考和决策分析。 关键词:大数据;岗位招聘;Hadoop;统计分析;可视化 中图分类号:TP391 文献标识码:A 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第5页。 文章编号:1009-3044(2021)31-0047-04 基于Hadoop技术的大数据就业岗位数据分析全文共10页,当前为第5页。 Big Data Employment Data Analysis Based on Hadoop Technology LIANG Tian-you, QIU Min (School of Information Engineering, Nanning University, Nanning 530200,China) Abstract: Big data is a new technology, in order to further understand the related employment situation, through the use of Java program climb out real big jobs data, combining the Hadoop technologies were analyzed, and finally using visualization techniques to present big data technology jobs in different area, the hiring salary, quantity, detailed information, such as professional skill requirements for the candidates for your reference and decision analysis. Key words: Big data; Job recruitment; Hadoop; Statistical analysis; visualization 据IBM统计,全球近90%的数据是在过去2年中生成的,每天都在增加2.5 EB(1 EB=1 024 PB)数据。其中,约有90%的数据是非结构化的。所以这些来自网络和云平台的大数据为价值创造和商业智能提供了新的机会。随着大数据的到来,大数据岗位人才稀缺,治理大数据技术问题成为政府和各公司的问题【1】。政府治理(government governance)主要管理政府大数据和利用政府大数据,收集突发公共安全、突发卫生健康、犯罪、自然灾害、恐怖主义、国防等,并且向社会输送大数据技术人才,根据教育部公布的2017-2020年普通高等学校本科专业备案和审批结果显示,获批新增"数据科学与大数据技术"专业的高校高达616所【2】。公司治理(corporation governance)以信息技术(information technology)治理,即IT治理为主,更新技术处理设备,招纳大数据技术人才。 在如此的大数据技术背景下各公司会把所需人才岗位发布到互联网上,求职者根据自身需求和技能对位各公司的岗位,而使用爬虫和大数据相关技能爬取、统计、分析出来的数据能够帮助求职者起到一个借鉴和决策的作用。 1研究数据及技术方法 本次研究以Java和Hadoop技术为基础,"大数据"为关键词,爬取某IT互联网招聘网站各公司的招聘信息到Hadoop分布式文件系统(HDFS)上,爬取信息包括地区、岗位名称、薪资、教育背景、经验要求、公司福利六个字段,对爬取的数据进行处理后存储在Hive数据仓库上,使用M
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值