大数据概况及Hadoop生态系统总结

最新推荐文章于 2024-07-27 18:36:27 发布

Biubiubiu!!

最新推荐文章于 2024-07-27 18:36:27 发布

阅读量3.3k

点赞数 4

分类专栏：大数据BigData 文章标签：大数据概况 Hadoop Hadoop生态系统

本文链接：https://blog.csdn.net/qq_40246175/article/details/104227761

版权

本文详细介绍了大数据的基本概念，包括4V特征，并探讨了大数据在不同领域的应用。此外，文章深入剖析了Hadoop生态，包括Hadoop的起源、发展、版本、组件以及Hadoop在分布式计算中的优势。还介绍了大数据工程师和分析师的角色、职责和所需技能。最后，文章涵盖了Hadoop的运行模式和日常学习建议。

摘要由CSDN通过智能技术生成

觉得有帮助的，请多多支持博主，点赞关注哦~

文章目录

大数据概况及Hadoop生态系统

大数据概况及Hadoop生态系统

1、大数据概念理解

1.1、什么是大数据？

大数据（big data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决：海量数据的存储和海量数据的分析计算问题。

按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

换算：1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T

大数据是（我们无法在【一定时间内】用【常规的软件工具】 对内容进行【抓取、处理和运算】）的数据集合。
单位：MB、GB、TB、PB、EB等等。。

1.2、大数据特征(4V)？

4V特点：

Volume（大量）：截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。
Velocity（高速）：这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。
Variety（多样）：这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。
Value（低价值密度）：价值密度的高低与数据总量的大小成反比。比如，在一天监控视频中，我们只关心健身那一分钟，如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

1）数据量大:volume
2）速度快：velocity
3）多样性:variety
结构化：关系型数据
半结构化：xml、json格式
非结构化:用户行为日志、视频、音频、地理坐标。。。

1.3、大数据应用场景？

物流仓储：大数据分析系统助力商家精细化运营、提升销量、节约成本。
零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量。
旅游：深度结合大数据能力与旅游行业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。
商品广告推荐：给用户推荐可能喜欢的商品。
保险：海量数据挖掘及风险预测，助力保险行业精准营销，提升精细化定价能力。
金融：多维度体现用户特征，帮助金融机构推荐优质客户，防范欺诈风险。
房产：大数据全面助力房地产行业，打造精准投策与营销，选出更合适的地，建造更合适的楼，卖给更合适的人。
人工智能

1）电商零售行业
2）旅游行业
3）精细化产品推荐
4）金融产业
5）人工智能方向。。

在这里插入图片描述

1.4、大数据部门业务流程分析？

在这里插入图片描述

1.5、大数据部门组织结构？

在这里插入图片描述

1）大数据平台运维：
平台软件(hadoop、spark、flink、kafka)的安装和维护
关于平台的性能的监测
平台的性能的调优
2）数据仓库组：
ETL工程师：数据清洗
Hive工程师:数据分析
3）数据挖掘组：
算法、建模
4）可视化组：
4.1)javaee同事完成,使用echarts
4.2)大数据可视化同事完成,使用kylin、kibina

1.6、数据仓库与数据库的区别？

在这里插入图片描述

2、职业简介

2.1、大数据工程师

2.1.1、简介

1）深刻理解统计学科的明星软件工程师。
2）是系统的构建者和优化者，是公司正常运营的基础之一。

2.1.2、职责

1）保证数据接收、转移的准确性、并且保证其它用户对数招的可访问性。
2）重点处理数据架构、计算、数据存储、数据流等。
3）负责数据库设计、存储数据库、建立数据库等。
4）负责对数据的可扩展性、可靠性、韧性、备份等

具备：相当强的编程能力-包括编写数据查询程序的能力。

2.1.3、所需技能

1）数学和统计学
2）程序设计和计算机科学
3）分析技能
4）商业战略

2.1.4、工作方向

1）大数据工程师

大数据销售、咨询
大数据调试工程师
Hadoop大数据工程师
大数据产品经理
大数据运营经理

2）大数据高级工程师

大数据研发工程师
大数据平台开发工程师
大数据高级研发工程师
大数据高级研发工程师

3）大数据架构师

2.2、大数据分析师

2.2.1、简介

1）业务分析师、商业智能分析师、运营分析师、数据库分析师等。
2）能帮助企业做出基于数据的决策。

2.2.2、职责

从不同行业中获取数据，并通过获取到的数据对问题进行解答，并还需要以合适的方式对结果进行展示，以辅助企业做出商业决策。

2.2.3、所需技能

1）数学和统计学
2）程序设计和计算机科学
3）分析技能
4）商业战略

2.2.4、工作方向

1）大数据工程师

大数据销售、咨询
大数据调试工程师
Hadoop大数据工程师
大数据产品经理
大数据运营经理

2）大数据高级工程师

大数据研发工程师
大数据平台开发工程师
大数据高级研发工程师
大数据高级研发工程师

3）大数据架构师

3、什么是分布式计算？

【分布式】【计算】
将大量的数据切割成多个小部分的数据进行【并发】处理

	传统分布式计算	新的分布式计算 - Hadoop
计算方式	将数据复制到计算节点移动数据	在不同数据节点并行计算移动运算（实现本地化运算）
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

4、Hadoop深入理解

4.1、什么是Hadoop?

1）Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。

在这里插入图片描述

1）hadoop是【开源的】【分布式】的系统基础架构
2）有三个组成：
hdfs:分布式的文件系统，主要解决大数据的储存问题
mapreduce:分布式的批量计算
yarn:分布式的资源管理组件

4.2、什么是Hadoop生态圈？

在这里插入图片描述

4.3、Hadoop的发展及其版本？

在这里插入图片描述

1）hadoop的作者：Doug cutting
2）hadoop的发行版本：
apache hadoop:最新版本（3.2.1 [2020/2/7]）,授课使用稳定版本:2.7.7
cloudera:简称为CDH
Hortonworks：简称为HDP

4.3.1、Hadoop 发展历史

1）Lucene 是 Doug Cutting 开创的开源软件，用 java 书写代码，实现与 Google 类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎
2）2001 年年底成为 Apache 基金会的一个子项目
3）对于大数量的场景，Lucene 面对与 Google 同样的困难
4）学习和模仿 Google 解决这些问题的办法：微型版 Nutch
5）可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase
6）2003-2004 年，Google 公开了部分 GFS 和 Mapreduce 思想的细节，以此为基础 Doug Cutting等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制，使 Nutch 性能飙升
7）2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。2006 年3 月份，Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
8）名字来源于 Doug Cutting 儿子的玩具大象
9）Hadoop 就此诞生并迅速发展，标志这云计算时代来临

4.3.2、Hadoop 三大发行版本

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。
Apache 版本最原始（最基础）的版本，对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
1）Apache Hadoop
官网地址：http://hadoop.apache.org/releases.html
下载地址：https://archive.apache.org/dist/hadoop/common/
2）Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/
（1）2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供 Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
（2）2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH，Cloudera Manager，Cloudera Support
（3）CDH 是 Cloudera 的 Hadoop 发行版，完全开源，比 Apache Hadoop 在兼容性，安全性，稳定性上有所增强。
（4）Cloudera Manager 是集群的软件分发及管理监控平台，可以在几个小时内部署好一个 Hadoop 集群，并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
（5）Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
3）Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform
（1）2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
（2）公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师，上述工程师均在 2005 年开始协助雅虎开发 Hadoop，贡献了 Hadoop80%的代码。
（3）雅虎工程副总裁、雅虎 Hadoop开发团队负责人 Eric Baldeschwieler 出任 Hortonworks的首席执行官。
（4）Hortonworks 的主打产品是 Hortonworks Data Platform（HDP），也同样是 100%开源的产品，HDP 除常见的项目外还包括了 Ambari，一款开源的安装和管理系统。
（5）HCatalog，一个元数据管理系统，HCatalog 现已集成到 Facebook 开源的 Hive 中。Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的，易于使用的沙盒。
（6）Hortonworks 开发了很多增强特性并提交至核心主干，这使得 Apache Hadoop 能够在包括 Window Server 和 Windows Azure 在内的 microsoft Windows 平台上本地运行。定价以集群为基础，每 10 个节点每年为 12500 美元。