Hive:Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统(hadoop)上大数据集的数据仓库软件。
Hive的特点:
1:通过类SQL脚本执行大数据平台数据读取和写入以及数据分析,避免开发人员需要写复杂的mapredurce程序,让数据分析人员专注他们的分析工作。
2:非富的分析函数和窗口函数,不满足需求的还支持自定义的开发函数。
3:hive是不存储数据的,都存储在HDFS平台上,只是对每个数据文件做一个映射成数据库里的表和字段,一般通过关系库来存储这些元数据。
4:适用于支持离线计算的场景,适合支持大数据量的计算。
Hive的架构:
Sqoop:是一个ETL工具,主要用于HDFS与关系库的数据同步。
导入:将数据从关系型数据库导入 HDFS 中,