hive谓词下推的失效与生效

最新推荐文章于 2024-07-15 22:41:04 发布

年华似水

最新推荐文章于 2024-07-15 22:41:04 发布

阅读量4.8k

点赞数

分类专栏： hive相关

本文链接：https://blog.csdn.net/czw698/article/details/8301992

版权

hive相关专栏收录该内容

18 篇文章 1 订阅

订阅专栏

谓词下推的生效：

select * from czw_test2 a
join (select * from czw_test1 where pt >='20121101' and pt <='20121102') b
on (a.search_id = b.search_id)

select count(1) 
from czw_test2 a
join czw_test1 b
on a.search_id = b.search_id
where b.pt >='20121101' and b.pt <='20121102'

如果使用外连接，则谓词下推会失效

select count(1) 
from czw_test2 a
left outer join czw_test1 b
on a.search_id = b.search_id
where b.pt >='20121101' and b.pt <='20121102'

所以，我们最好还是使用最上面那条语句的方式来做，这是最好的

附加：

（1）如何查看那些分区的文件被加载进来

在mapreduce 的stage-0 有一个track url，点进去那个url页面中的xml文件，找到“mapred.input.dir” 这个选项就能看到加载的文件了

（2）谓词下推，是需要先打开“谓词下推”选项的

set hive.optimize.ppd = true;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

年华似水

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive 优化--SQL执行顺序、Hive参数、数据倾斜、小文件优化

03-09

2557

代码写的顺序： select ... from .a join b. on .. where.... group by... having... order by.. msyql语句执行顺序： from. join. on . where...group by... having.... select ... order by... hive 语句执行顺序大致顺序 from...

Hive大总结！！！

Biubiubiu!

03-29

5678

文章目录Hive一、Hive简介及核心概念1、Hive概述2、Hive特点2.1、优点2.2、缺点2.3、Hive使用场景3、Hive基本架构原理4、数据处理流程5、Hive 和数据库比较5.1、查询语言5.2、数据存储位置5.3、数据更新5.4、索引5.5、执行5.6、执行延迟5.7、可扩展性5.8、数据规模二、Hive安装及配置1、Hive 安装地址2、Hive 安装部署3、元数据配置3.1、...

参与评论您还未登录，请先登录后发表或查看评论

hive多次join未进行谓词下推

weixin_42412645的博客

06-09

536

最近执行了一段多表join出现数据倾斜的情况，下面说一下处理过程： 1.首先去yarn界面查看到job出现个别任务reduce特别的慢 2.检查一下on条件里面的字段类型是否一致，比如on a.id=b.id(a.id为bigint，b.id为string),结果都是一致。 3.查看一下主表的数据分布情况，确实有个别的类比较大，此时将count(distinct id)改为sum() group ...

SQL中的谓词与谓词下推

最新发布

一个8年大数据开发工程师的碎碎念

07-15

1281

SQL 谓词是数据库查询中至关重要的工具。通过正确使用谓词，可以编写高效、准确的 SQL 查询，快速提取所需的数据。在工作中，合理使用谓词不仅能提高查询效率，还能避免不必要的资源浪费。

Hive谓词下推

Learning

04-29

1283

谓词下推是一种自动优化，如果养成好的查询习惯你其实并不需要hive自动去帮你谓词下推。谓词下推 Predicate Pushdown（PPD）：简而言之，就是在不影响结果的情况下，尽量将过滤条件提前执行。

Hive Sql 优化——谓词下推

Sixkd的博客

08-09

2716

Sql 优化：谓词下推（PPD） 1 定义谓词下推的概念其实出现在sql中，在关联查询时(join，left join ,right join),因为涉及两个大表之间的关联(特别是在hive)造成资源消耗会比较大，因为建议在join之前先将两个表进行过滤(hive 里指的是在map端进行过滤)，系统会进行部分优化，但sql需要遵守PPD规则，所谓下推可以理解成优化（只有满足才能进行优化）。一句话说完：不影响结果的情况下，尽量将过滤条件提前执行。（记得小表join大表） 2 PPD规则（谓词下推规则） 2

Hive 中的join和谓词下推

ooeeerrtt的博客

07-12

1382

总所周知，Hive本身会对执行的HQL代码做很多优化，其中之一就是谓词下推。所谓谓词下推，就是

Hadoop 过滤,映射,谓词下推基本概念

Mike han

12-02

8700

本文中涉及的源码地址：https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch6/joins/FilterProjection.java 今天想跟大家讨论一下以下几个概念：Filter , Projections, 和 Puchdowns。 1. Filter（过滤）和 Project（映射）在传统的

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

m0_46689661的博客

12-05

9757

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

3.3.1交互式查询⼯具Impala(与Hive对比、安装、架构原理、语句、JDBC方式查询impala、负载均衡)

weixin_47134119的博客

02-24

516

交互式查询⼯具Impala 文章目录交互式查询⼯具Impala第 1 部分 Impala概述1.1 Impala是什么1.2 Impala优势1.3 Impala的缺点1.4 适⽤场景第 2 部分 Impala 安装与⼊⻔案例2.1 集群准备2.1.1 安装Hadoop,Hive2.1.2 准备Impala的所有依赖包2.2 安装Impala2.2.1 集群规划2.2.2 具体安装步骤2.3 Impala⼊⻔案例第 3 部分 Imapla的架构原理第 1 节 Impala的组件第 2 节 Impala的查

Hive优化之谓词下推

weixin_33894640的博客

12-03

677

Hive优化之谓词下推解释 Hive谓词下推(Predicate pushdown) 关系型数据库借鉴而来，关系型数据中谓词下推到外部数据库用以减少数据传输基本思想：尽可能早的处理表达式属于逻辑优化，优化器将谓词过滤下推到数据源，使物理执行跳过无关数据参数打开设置：hive.optimize.ppd=true 两种生效形式形式1： select a.id,a.value1,b.val...

关于谓词下推的概念

weixin_30505751的博客

09-19

489

转载于:https://www.cnblogs.com/haojb/p/11549807.html

hive问题总结

weixin_43581375的博客

05-10

446

有三个阶段均会发生该错误，首先判断任务运行到哪个阶段报错内存不足。map阶段、shuffle阶段、reduce阶段。

Hive实现构造自增id列

qq_654603797

10-12

5148

需求：需要为新建的表新增自增id，如2方式出现id为空情况。原因： order by 1 最终只有一个数据，应该order by原有数据的某个字段，如时间戳等解决办法： ok ,问题解决

Hive中的Predicate Pushdown Rules（谓词下推规则)

热门推荐

strongyoung的专栏

07-22

1万+

谓词下推概念谓词下推 Predicate Pushdown（PPD）：简而言之，就是在不影响结果的情况下，尽量将过滤条件提前执行。谓词下推后，过滤条件在map端执行，减少了map端的输出，降低了数据在集群上传输的量，节约了集群的资源，也提升了任务的性能。 PPD 配置 PPD控制参数：hive.optimize.ppd Default Value: true Added ...

对谓词下推的一点看法

zhy_2117的博客

06-11

1506

谓词下推 1. 谓词下推概念谓词下推原本是一个关系型数据库中的词语，优化关系 SQL 查询的一项基本技术是，将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块（例如视图），从而能够提早进行数据过滤以及有可能更好地利用索引。 2. Hive谓词下推(Predicate pushdown): Hive谓词下推这个词是从关系型数据库借鉴来的，即使对Hive对来说相当于谓词上推。谓词下推的基本思想：尽可能早的处理表达式(expressions)，默认产生的执行计...

hive谓词下推

weixin_36190755的博客

06-04

1789

关系型数据库借鉴而来，关系型数据中谓词下推到外部数据库用以减少数据传输基本思想：尽可能早的处理表达式属于逻辑优化，优化器将谓词过滤下推到数据源，使物理执行跳过无关数据参数打开设置：hive.optimize.ppd=true ...

Hive - 之谓词下推解析

shufangreal的博客

07-06

716

Hive - 之谓词下推解析 Hive的谓词下推是在对数据做操作之前，扫描数据进内存的一种优化手段！那么具体什么时候会自动进行谓词下推呢，或者换一句话说谓词下推的规则是怎样的呢？ -- 1 join 【对于join，不管谓词放在on 还是放在join都会触发谓词下推】 select * from a join b on a.id = b.id and a.name = 'a' and b.name = 'b'; --all pushed select * from a join b on a.i

hive sql 谓词下推

08-25

谓词下推是指在Hive中，尽量将过滤条件提前执行，使得最后参与join的表的数据量更小，从而减少数据传输IO，节约资源，提升性能。无论在Hive中是否开启了CBO（Cost-Based Optimizer），无论谓词写在ON后面还是WHERE后面，内连接（Inner Join）都会进行谓词下推。在Hive中，谓词下推也称为Predicate Pushdown。它的实现方式是在map端提前执行过滤条件，减少map端的输出数据量。这样可以减少数据的传输和IO操作，提高查询性能。默认情况下，Hive会开启谓词下推，可以通过配置hive.optimize.ppd参数为true来开启或关闭谓词下推功能。另外，在Hive中，如果在JOIN中有不能匹配上的表，则会使用null填充该表，这个表被称为Null Supplying Table。它是一种非保留表，用于提供null值。综上所述，Hive SQL中的谓词下推是指在不影响结果的前提下，尽量将过滤条件提前执行，减少数据传输IO，节约资源，提升性能的优化技术。123 #### 引用[.reference_title] - *1* *2* *3* [一文详解Hive的谓词下推](https://blog.csdn.net/java_atguigu/article/details/123064220)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]