大数据时代
我们生活在大数据时代,数据量远远超过硬盘可存储数量。个人产生的数据正在快速的增长,个人档案有很大的技术发展和商业前景。
数据的存储与分析
问题:
硬盘存储容量多年来不断提升的同时,访问速度(硬盘的读取速度)没有与时俱进。
解决思路:
多线程并行同时操作数据。
还有问题:
1、硬件故障
2、不同硬盘中的数据需要结合使用。
Hadoop这样解决
1、HDFS分布式存储/存储文件副本
2、MapReduce可靠高效的编程模型。
MapReduce批处理++
MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。查询比较慢,比较适合用户不在现场的查询。
MapReduce批量查询并不是Hadoop唯一的功能,它还集成了很多Apache投资的开源软件。
Hadoop的优势
- 关系型数据库管理系统
高效性:MapReduce的高效率存储传输
交互性:愈来愈好的交互性,Hive。
伸缩性:功能可随数据量的大小伸缩。 - 网格计算
对比高性能计算:高性能计算比较适合计算机密集型作业。而Hadoop尽量实现数据本地处理,节省带宽和传输浪费的时间;高性能计算赋予程序员很大的控制权,而基于Hadoop平台程序员仅对MapReduce的角度考虑,数据保持隐性;Hadoop可以更好的协调各个进程。
参考文献:
[1]Tom White 著 王海 华东 刘喻 吕粤海 译.Hadoop权威指南,2017/7 第四版.