![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 68
开数据挖掘机的小可爱
这个作者很懒,什么都没留下…
展开
-
【Hive】Hive分区表
Hive 分区表一、What?二、Why?三、How? 一、What? 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。 二、Why? Hive中存有海量数据,若不进行分区,则和orderby原理相同,只能由一个人去完成某个指令,其并行度不够,运行速度较慢,因此需要分区,将表中数据分原创 2021-02-07 16:11:10 · 134 阅读 · 0 评论 -
【Hive】Hive 中四个BY对比:Order By,Sort By ,Distribute By,Cluster By [Hive面试常考]
Hive 中四个BY比较一、Order By二、Sort By三、 Distribute By四、 Cluster By 一、Order By Order By:全局排序。只有一个 Reducer,无论将reducer设置为几,实际都只有一个。 效率较低。 有ASC(ascend): 升序(默认) DESC(descend): 降序两种排序方式。 ORDER BY 子句在SELECT 语句的结尾 例: select * from emp order by sal desc; 二、Sort By原创 2021-02-07 12:12:54 · 1671 阅读 · 0 评论 -
【Hive】Hive 和数据库比较
第八章 Hive 和数据库比较 Hive是一个由 Facebook 开源用于解决海量结构化日志的数据统计工具, 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。其本质是将 HQL 转化成 MapReduce 程序。 那么Hive和数据库有什么异同呢?其实其主要差别在于两者适用情形的不同:Hive适用于大规模数据,而数据库一般常用于小数据集。这一点是其所有异同的根本原因。 1.查询语言 由于 SQL 被广泛的应用在数据仓库中,因此,专门针对原创 2021-02-05 15:52:28 · 218 阅读 · 0 评论