Hadoop组成:
1.HDFS(Hadoop Distributed File System):
说明:分布式文件系统。
作用:存储海量数据
特点:高容错、高数据吞吐量
2.MapReduce:
说明:并行处理大数据集的Yarn基本系统。
作用:计算海量数据
3.Yarm:
作用:资源管理和任务调度的一个框架
4.Common:
作用:支撑其他模块。
Hadoop特点:
1.高可扩展性。
说明:hadoop可存储和分布横跨数百个并行操作的廉价服务器数据集群,能可靠的存储和处理PB数据。
2.成本效益好。
说明:hadoop提供了极具成本效益的存储解决方案,高效且实惠地解决了数据的存储和计算的问题。
3.灵活性好:
说明:hadoop帮助企业轻松地访问数据,访问目标多样化。
4**.hadoop高效性:**
说明:hadoop以其独特的存储方式,能够快速的进行数据处理。
5.容错率高:
说明:容错率高是hadoop一个极为关键的优势,hadoop能自动地维护数据的多份副本,一般默认为三份,一旦某个节点上的数据损坏或丢失,立即将失败的任务重新分配。并且在任务失败后能够自动重新部署计算机任务。
Hadoop相关项目:
1.Hbase:
说明:分布式且开源的数据库,NoSQL。
作用:解决非关系型数据存储问题
2.Hive:
说明:基于hadoop体系结构的数据仓库基础构架,可以将结构化的数据文件映射成数据库表并提供查询语句。
作用:一种可存储、查询、分析并存储在hadoop中的大规模数据处理的机制。
3.Spark:
说明:一个快速和通用的集群计算机系统。支持一组丰富的高级工具,包括Spark SQL、SQL和结构化数据处理、Spark流等。
4.Zookeeper:
说明:一个能高效开发和维护分布式的开源码的应用协调服务。
作用:为分布式应用提供一致性服务的软件,提供维护配置信息、名字服务、分布式同步、组服务等。