觉得有帮助的,请多多支持博主,点赞关注哦~
文章目录
- 大数据概况及Hadoop生态系统
-
- 1、大数据概念理解
- 2、职业简介
- 3、什么是分布式计算?
- 4、Hadoop深入理解
-
- 4.1、什么是Hadoop?
- 4.2、什么是Hadoop生态圈?
- 4.3、Hadoop的发展及其版本?
- 4.4、Hadoop的优点?
- 4.5、Hadoop 组成
- 4.6、Hadoop生态圈理解
- 4.7、Hadoop技术生态系统
- 4.7、推荐系统框架图
- 4.9、Hadoop前置配置
- 5、Hadoop运行模式
- 6、日常的学习习惯
大数据概况及Hadoop生态系统
1、大数据概念理解
1.1、什么是大数据?
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决:海量数据的存储和海量数据的分析计算问题。
按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
换算:1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T
大数据是(我们无法在【一定时间内】用【常规的软件工具】 对内容进行【抓取、处理和运算】)的数据集合。
单位:MB、GB、TB、PB、EB等等。。
1.2、大数据特征(4V)?
4V特点:
- Volume(大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
- Velocity(高速):这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
- Variety(多样):这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
- Value(低价值密度):价值密度的高低与数据总量的大小成反比。比如,在一天监控视频中,我们只关心健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
1)数据量大:volume
2)速度快:velocity
3)多样性:variety
结构化:关系型数据
半结构化:xml、json格式
非结构化:用户行为日志、视频、音频、地理坐标。。。
1.3、大数据应用场景?
- 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
- 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
- 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
- 商品广告推荐:给用户推荐可能喜欢的商品。
- 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
- 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
- 房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
- 人工智能
1)电商零售行业
2)旅游行业
3)精细化产品推荐
4)金融产业
5)人工智能方向。。
1.4、大数据部门业务流程分析?
1.5、大数据部门组织结构?
1)大数据平台运维:
平台软件(hadoop、spark、flink、kafka)的安装和维护
关于平台的性能的监测
平台的性能的调优
2)数据仓库组:
ETL工程师:数据清洗
Hive工程师:数据分析
3)数据挖掘组:
算法、建模
4)可视化组:
4.1)javaee同事完成,使用echarts
4.2)大数据可视化同事完成,使用kylin、kibina
1.6、数据仓库与数据库的区别?
2、职业简介
2.1、大数据工程师
2.1.1、简介
1)深刻理解统计学科的明星软件工程师。
2)是系统的构建者和优化者,是公司正常运营的基础之一。
2.1.2、职责
1)保证数据接收、转移的准确性、并且保证其它用户对数招的可访问性。
2)重点处理数据架构、计算、数据存储、数据流等。
3)负责数据库设计、存储数据库、建立数据库等。
4)负责对数据的可扩展性、可靠性、韧性、备份等
具备:相当强的编程能力-包括编写数据查询程序的能力。
2.1.3、所需技能
1)数学和统计学
2)程序设计和计算机科学
3)分析技能
4)商业战略
2.1.4、工作方向
1)大数据工程师
- 大数据销售、咨询
- 大数据调试工程师
- Hadoop大数据工程师
- 大数据产品经理
- 大数据运营经理
2)大数据高级工程师
- 大数据研发工程师
- 大数据平台开发工程师
- 大数据高级研发工程师
- 大数据高级研发工程师
3)大数据架构师
2.2、大数据分析师
2.2.1、简介
1)业务分析师、商业智能分析师、运营分析师、数据库分析师等。
2)能帮助企业做出基于数据的决策。
2.2.2、职责
从不同行业中获取数据,并通过获取到的数据对问题进行解答,并还需要以合适的方式对结果进行展示,以辅助企业做出商业决策。
2.2.3、所需技能
1)数学和统计学
2)程序设计和计算机科学
3)分析技能
4)商业战略
2.2.4、工作方向
1)大数据工程师
- 大数据销售、咨询
- 大数据调试工程师
- Hadoop大数据工程师
- 大数据产品经理
- 大数据运营经理
2)大数据高级工程师
- 大数据研发工程师
- 大数据平台开发工程师
- 大数据高级研发工程师
- 大数据高级研发工程师
3)大数据架构师
3、什么是分布式计算?
【分布式】【计算】
将大量的数据切割成多个小部分的数据进行【并发】处理
传统分布式计算 | 新的分布式计算 - Hadoop | |
---|---|---|
计算方式 | 将数据复制到计算节点移动数据 | 在不同数据节点并行计算 移动运算(实现本地化运算) |
可处理数据量 | 小数据量 | 大数据量 |
CPU性能限制 | 受CPU限制较大 | 受单台设备限制小 |
提升计算能力 | 提升单台机器计算能力 | 扩展低成本服务器集群 |
4、Hadoop深入理解
4.1、什么是Hadoop?
1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。
1)hadoop是【开源的】【分布式】的系统基础架构
2)有三个组成:
hdfs:分布式的文件系统,主要解决大数据的储存问题
mapreduce:分布式的批量计算
yarn:分布式的资源管理组件
4.2、什么是Hadoop生态圈?
4.3、Hadoop的发展及其版本?
1)hadoop的作者:Doug cutting
2)hadoop的发行版本:
apache hadoop:最新版本(3.2.1 [2020/2/7]),授课使用稳定版本:2.7.7
cloudera:简称为CDH
Hortonworks:简称为HDP
4.3.1、Hadoop 发展历史
1)Lucene 是 Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
2)2001 年年底成为 Apache 基金会的一个子项目
3)对于大数量的场景,Lucene 面对与 Google 同样的困难
4)学习和模仿 Google 解决这些问题的办法 :微型版 Nutch
5)可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase
6)2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting等人用了 2 年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升
7)2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。2006 年3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
8)名字来源于 Doug Cutting 儿子的玩具大象
9)Hadoop 就此诞生并迅速发展,标志这云计算时代来临
4.3.2、Hadoop 三大发行版本
Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
Apache 版本最原始(最基础)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用的较多。
Hortonworks 文档较好。
1)Apache Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
2)Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support
(3)CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。
(4)Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
(5)Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。
3)Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
(2)公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。
(3)雅虎工程副总裁、雅虎 Hadoop开发团队负责人 Eric Baldeschwieler 出任 Hortonworks的首席执行官。
(4)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统。
(5)HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的,易于使用的沙盒。
(6)Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括 Window Server 和 Windows Azure 在内的 microsoft Windows 平台上本地运行。定价以集群为基础,每 10 个节点每年为 12500 美元。
4.4、Hadoop的优点?
1)高可靠性:Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在 MapReduce 的思想下