大数据概况及Hadoop生态系统总结

觉得有帮助的,请多多支持博主,点赞关注哦~

文章目录

大数据概况及Hadoop生态系统

1、大数据概念理解

1.1、什么是大数据?

大数据(big data):指无法在一定时间范围内常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决:海量数据的存储和海量数据的分析计算问题。

按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

换算:1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T

大数据是(我们无法在【一定时间内】用【常规的软件工具】 对内容进行【抓取、处理和运算】)的数据集合。
单位:MB、GB、TB、PB、EB等等。。

1.2、大数据特征(4V)?

4V特点:

  1. Volume(大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  2. Velocity(高速):这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
  3. Variety(多样):这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  4. Value(低价值密度):价值密度的高低与数据总量的大小成反比。比如,在一天监控视频中,我们只关心健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
1)数据量大:volume
2)速度快:velocity
3)多样性:variety
结构化:关系型数据
半结构化:xml、json格式
非结构化:用户行为日志、视频、音频、地理坐标。。。

1.3、大数据应用场景?

  1. 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
  2. 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
  3. 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
  4. 商品广告推荐:给用户推荐可能喜欢的商品。
  5. 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
  6. 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
  7. 房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
  8. 人工智能
1)电商零售行业
2)旅游行业
3)精细化产品推荐
4)金融产业
5)人工智能方向。。

在这里插入图片描述

1.4、大数据部门业务流程分析?

在这里插入图片描述

1.5、大数据部门组织结构?

在这里插入图片描述

1)大数据平台运维:
平台软件(hadoop、spark、flink、kafka)的安装和维护
关于平台的性能的监测
平台的性能的调优
2)数据仓库组:
ETL工程师:数据清洗
Hive工程师:数据分析
3)数据挖掘组:
算法、建模
4)可视化组:
4.1)javaee同事完成,使用echarts
4.2)大数据可视化同事完成,使用kylin、kibina

1.6、数据仓库与数据库的区别?

在这里插入图片描述

2、职业简介

2.1、大数据工程师

2.1.1、简介

1)深刻理解统计学科的明星软件工程师。
2)是系统的构建者和优化者,是公司正常运营的基础之一。

2.1.2、职责

1)保证数据接收、转移的准确性、并且保证其它用户对数招的可访问性。
2)重点处理数据架构、计算、数据存储、数据流等。
3)负责数据库设计、存储数据库、建立数据库等。
4)负责对数据的可扩展性、可靠性、韧性、备份等

具备:相当强的编程能力-包括编写数据查询程序的能力。

2.1.3、所需技能

1)数学和统计学
2)程序设计和计算机科学
3)分析技能
4)商业战略

2.1.4、工作方向

1)大数据工程师

  1. 大数据销售、咨询
  2. 大数据调试工程师
  3. Hadoop大数据工程师
  4. 大数据产品经理
  5. 大数据运营经理

2)大数据高级工程师

  1. 大数据研发工程师
  2. 大数据平台开发工程师
  3. 大数据高级研发工程师
  4. 大数据高级研发工程师

3)大数据架构师

2.2、大数据分析师

2.2.1、简介

1)业务分析师、商业智能分析师、运营分析师、数据库分析师等。
2)能帮助企业做出基于数据的决策。

2.2.2、职责

从不同行业中获取数据,并通过获取到的数据对问题进行解答,并还需要以合适的方式对结果进行展示,以辅助企业做出商业决策。

2.2.3、所需技能

1)数学和统计学
2)程序设计和计算机科学
3)分析技能
4)商业战略

2.2.4、工作方向

1)大数据工程师

  1. 大数据销售、咨询
  2. 大数据调试工程师
  3. Hadoop大数据工程师
  4. 大数据产品经理
  5. 大数据运营经理

2)大数据高级工程师

  1. 大数据研发工程师
  2. 大数据平台开发工程师
  3. 大数据高级研发工程师
  4. 大数据高级研发工程师

3)大数据架构师

3、什么是分布式计算?

【分布式】【计算】
将大量的数据切割成多个小部分的数据进行【并发】处理
传统分布式计算 新的分布式计算 - Hadoop
计算方式 将数据复制到计算节点移动数据 在不同数据节点并行计算 移动运算(实现本地化运算)
可处理数据量 小数据量 大数据量
CPU性能限制 受CPU限制较大 受单台设备限制小
提升计算能力 提升单台机器计算能力 扩展低成本服务器集群

4、Hadoop深入理解

4.1、什么是Hadoop?

1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。

在这里插入图片描述

1)hadoop是【开源的】【分布式】的系统基础架构
2)有三个组成:
hdfs:分布式的文件系统,主要解决大数据的储存问题
mapreduce:分布式的批量计算
yarn:分布式的资源管理组件

4.2、什么是Hadoop生态圈?

在这里插入图片描述

4.3、Hadoop的发展及其版本?

在这里插入图片描述

1)hadoop的作者:Doug cutting
2)hadoop的发行版本:
apache hadoop:最新版本(3.2.1 [2020/2/7]),授课使用稳定版本:2.7.7
cloudera:简称为CDH
Hortonworks:简称为HDP
4.3.1、Hadoop 发展历史

1)Lucene 是 Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
2)2001 年年底成为 Apache 基金会的一个子项目
3)对于大数量的场景,Lucene 面对与 Google 同样的困难
4)学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
5)可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase
6)2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升
7)2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。2006 年3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
8)名字来源于 Doug Cutting 儿子的玩具大象
9)Hadoop 就此诞生并迅速发展,标志这云计算时代来临

4.3.2、Hadoop 三大发行版本

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
1)Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
2)Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support
(3)CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。
(4)Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
(5)Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
3)Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
(2)公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。
(3)雅虎工程副总裁、雅虎 Hadoop开发团队负责人 Eric Baldeschwieler 出任 Hortonworks的首席执行官。
(4)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统。
(5)HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。
(6)Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括 Window Server 和 Windows Azure 在内的 microsoft Windows 平台上本地运行。定价以集群为基础,每 10 个节点每年为 12500 美元。

4.4、Hadoop的优点?

1)高可靠性:Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在 MapReduce 的思想下࿰

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值