Hive
文章平均质量分 87
fffalconer
这个作者很懒,什么都没留下…
展开
-
Hive 优化
Hive 优化 文章目录Hive 优化1.抓取策略2. Hive 本地模式3. 并行模式4. Hive严格模式5. Hive排序6. Hive join7. Map-Side聚合8. 合并小文件9. 合理设置Map以及Reduce的数量10. JVM重用 Hive 是基于 HDFS 构建的数据仓库,HSQL 的计算底层默认依赖于 MapReduce;一般Hive的执行效率主要取决于SQL语句的执行效率, 因此,Hive的优化的核心思想是 MapReduce 的优化。 1.抓取策略 对于一些简单的查询语句,原创 2021-06-25 19:15:05 · 162 阅读 · 0 评论 -
Hive 分区 && 分桶
Hive 分区 && 分桶 分区 1. 作用 为什么会有分区? 表的数据量越来越大,hive 在查询时通常会全表扫描,效率低。所以引入分区技术,提高查询的效率; 使用分区列的值作为目录,进行存放数据;这样在存储时,使用分区列进行过滤,只要扫描对应目录下的数据,提高查询的效率。 使用:PARTIONED BY(col_name data_type) 2. 分类 静态分区 分区列的值,在新增分区和加载分区数据时,必须指定分区名。 动态分区 分区列的值,非确定,在导入数据的原创 2021-06-25 18:58:57 · 219 阅读 · 0 评论 -
Hive 窗口函数
Hive 窗口函数 窗口是由一个 OVER 子句 定义的多行记录。聚合函数对其所作用的每一组记录输 出一条结果,而窗口函数对其所作用的窗口中的每一行记录输出一条结果. sql标准允许将所有聚合函数用作开窗函数,用over关键字区分开窗函数和聚合函数 基本语法 窗口函数的语法分为四个部分: 函数子句:指明具体操作,如sum-求和,first_value-取第一个值; partition by子句:指明分区字段,如果没有,则将所有数据作为一个分区; order by子句:指明了每个分区排序的原创 2021-06-25 17:17:54 · 194 阅读 · 0 评论