Pig:
Hadoop的客户端;Pig Latin类似sql的面向数据流的语言;pig可以把pig latin映射为mapreduce作业上传到集群运行,减少用户编写java的程序;
三种运行方式:shell,脚本,嵌入式
Zookeeper:
Google Chubby的开源实现;通信协调软件;例如,防止单点失效、处理负载均衡、确认消息是否准确到达;
hbase中数据节点之间协调是通过zookeeper实现的;
Hbase:
hadoop database;是apache的的一个顶级项目;Google Bigtable的开源实现,用一张表就够了;可以集群化,可以用多台节点,分布式;可以使用shell、web、api等多种方式访问;是面向列的数据库,列式数据库;适合高速读写的场景,适合key-value查询场景;使用HQL查询语言;NoSQL的典型产品;Not only sql;
Hive:
SQL到mapreduce的映射器;输入sql语句,对数据进行操作;HiveQL,跟标准几乎相同,但是不支持更新、索引和事务;
提供shell、JDBC/ODBC、web等接口;
Sqoop:
用于在hadoop和关系型数据库之间交换数据;通过JDBC接口连入关系型数据库;满足高负荷情形的性能要求;
Avro:
数据序列化的工具;
Chukwa:
数据采集和分析框架;
主要进行日志采集和分析;
收集节点的日志数据,定时将数据写入hadoop集群;定时启动mapreduce作业数据进行处理加工;
Cassandra:
NoSQL,分布式的key-value型数据库;与Hbase类似;只有顺序写,没有随机写的设计;
参考:炼数成金的hadoop课程