一、Hive和Mysql的区别
二、hadoop和spark的区别
1、Hadoop有两个核心模块,分布式存储模块HDFS和分布式计算模块Mapreduce
2、Spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS
3、Hadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark的速度更快并且提供的功能更加丰富
三、hive
Hive是建立在 Hadoop 上的数据仓库基础构架。
Hive的几个特点
-
Hive最大的特点是通过类SQL来分析大数据,而避免了写MapReduce程序来分析数据,这样使得分析数据更容易。
-
数据是存储在HDFS上的,Hive本身并不提供数据的存储功能
-
Hive是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如MySQL)。
-
数据存储方面:它能够存储很大的数据集,并且对数据完整性、格式要求并不严格。
-
数据处理方面:因为Hive语句最终会生成MapReduce任务去计算,所以不适用于实时计算的场景,它适用于离线分析。
四、hive创建分区/分桶表<