大数据Hadoop第一天

Hadoop的优点:
1.高可靠性:Hadoop按位存储和处理数据
2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台
3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快
4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
5.低成本:Hadoop是开源的,集群是由廉价的PC机组成
Hadoop生态
1 HDFS--->hadoop分布式文件系统
2 MapReduce--->hadoop分布式计算
3Hbase--->hadoop建立在HDFS之上,面向列的NoSQL数据库,用于快速读/写大量数据
4 Zookeeper--->hadoop分布式协调服务
5 Oozie--->hadoop的一个可扩展的工作体系
6Pig--->hadoop中用于分析Hadoop数据集的脚本语言
7Hive --->hadoop中类似于SQL高级语言,用于运行存储在Hadoop上的查询语句
8 8Sqoop--->hadoop中一个连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据
9 Flumep--->hadoop中用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS
10Whirr是一组用来运行云服务的Java类库,将Hadoop集群运行于Amazon EC2、Rackspace等虚拟云计算平台。
11Mahout-->是Hadoop的一个机器学习和数据挖掘库
12 BigTop-->Hadoop子项目和相关组件,是一个用于打包和互用性测试的程序和框架
13 Ambari-->配置、管理和监控Hadoop集群

展开阅读全文

没有更多推荐了,返回首页