大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和spark为代表的基础大数据框架;还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用及其算法进行预测分析等技术。
目标
掌握Hadoop框架的基础原理及使用方式;
掌握基于Hadoop框架进行数据处理与分析的应用程序的开发;
从应用入手,在使用过程中深入了解其原理及运行机制。
Hadoop是什么
Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。
Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算)
HDFS(分布式文件系统):存储是大数据技术的基础
MapReduce编程模型:是大数据应用的解决方案
举个栗子:
如果想要从一个100T的文件中过滤出含有Hadoop字符串的行。普通方法不能搞定。
HDFS
普通的成百上千的机器
按照TB甚至PB为单位的大量的数据
简单便捷的文件获取
HDFS概念
数据块
是抽象块而非整个文件作为存储单元;
默认大小为64MB,一般设置为128M,备份×3;
对于特别大的文件(超出了一个磁盘的大小),那么便可以通过分块的方式存储到多个磁盘。简化了存储系统的设计。
为了保证安全,我们通常会进行备份,数据块非常适合数据的