Hadoop的由来
-
随着网络时代的发展,用户产生的数据越来越多,大数据时代来临.于是许多政府和企业开始关注如何去获取更多的数据,从数据中挖掘出更多的价值.
例如:从众多视频监控数据中发现潜逃罪犯,企业通过多年的盈利亏损数据来分析未来企业的发展趋势等等. -
谷歌公司最早提出了大数据的解决方案,并且很好地降低了存储数据的成本,谷歌最早的大数据技术为:
- Google File System:文件系统
- MapReduce:编程模式和运行环境
- BigTable:一个SortMap
- 但是由于谷歌没有提供开源,所以后来有了Hadoop来实现相同的功能.
Hadoop是什么?
- Hadoop是一个开源的分布式存储加分布式计算的平台,其中核心的组成为:
- HDFS: 分布式文件系统,存储海量数据
- MapReduce: 并行分布式框架,实现任务分解和调度
Hadoop可以用来做什么?
- Hadoop可以用来搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务,具体可以用来做:搜索引擎,日志分析,商业智能,数据挖掘等等
Hadoop的优势是什么?
- 高可扩:Hadoop可以通过增加硬件来扩充容量和提升整体性能
- 低成本:Hadoop是借鉴谷歌公司的大数据解决方案实现,不需要使用昂贵的大型服务器,只需要普通廉价的PC机即可
- 丰富的生态圈:Hadoop周边有许许多的工具,可以让使用Hadoop更加的方便.
Hadoop常用的生态工具
- HIVE:将SQL语句转换为Hadoop任务,降低Hadoop使用门槛
- HBASE:存储结构化数据的分布式数据库.HBASE与传统关系型数据库不同的在于,HBASE放弃了事物特性,追求更高的扩展;HBASE与HDFS不同的在于,HBASE提供数据的随机读写和实时访问,实现对表数据的读写功能.
- zookeeper:监控各个节点的状态,管理各个节点的配置,维护数据的一次性