第一章
信息化浪潮
第一次:1980年前后,个人计算机开始普及,解决了信息处理。(Intel、AMD、IBM等)
第二次:1995年前后,进入互联网时代,解决了信息传输。(雅虎、谷歌、阿里巴巴等)
第三次:2010年前后,大数据、云计算、物联网快速发展,解决了信息爆炸的问题。(亚马逊、阿里云等)
数据存储单位换算
1Byte=8bit
1ZB=1024EB=1024^2PB=1024^3TB=1024*4GB=1024^5MB=1024^6KB=1024^7Byte
大数据计算模式
批处理计算:针对大规模数据的批量处理(MapReduce、Spark等)
流计算:针对流数据的实时计算(Flink、Storm、S4等)
图计算:针对大规模数据结构的处理(Pregel、GraphX等)
查询分析:大规模数据的存储管理和查询分析(Dremel、Hive等)
云计算服务模式
模式:软件即服务(应用层)、平台即服务(平台层)、基础设施即服务(基础设施层)
类型:公有云、私有云、混合云
第二章
Hadoop基本概念
Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了MR计算模型和HDFS等功能。
Hadoop简介、HDFS+MR
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。
Hadoop 的两大核心:HDFS:是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
MapReduce:为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。
Hadoop 生态系统,常见的组件
HDFS:是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。
MapReduce:为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。
Hive: 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。
Pig: 是一个基于 Hadoop 的大规模数据分析平台,它提供的 SQL-LIKE