hive 索引

最新推荐文章于 2023-12-27 09:32:16 发布

空中的鱼1987

最新推荐文章于 2023-12-27 09:32:16 发布

阅读量1.7k

点赞数

分类专栏： hive 文章标签： mapreduce filter tree

本文链接：https://blog.csdn.net/lookqlp/article/details/8028668

版权

hive 专栏收录该内容

46 篇文章 0 订阅

订阅专栏

设置索引：
hive> set hive.optimize.index.groupby=false;
hive> set hive.optimize.index.filter=true;

注意 hive.optimize.index.groupby必须设置生false，不然 hive.optimize.index.filter不起作用。

hive> explain select count(1) from ctest where dp_id='10275499';

STAGE PLANS:
  Stage: Stage-3
    Map Reduce
      Alias -> Map Operator Tree:
        taobao_db__aatest_aatestindex__ 
          TableScan
            alias: taobao_db__aatest_aatestindex__
            filterExpr:
                expr: (tid = '57301233')
                type: boolean
            Filter Operator

可以发现会执行索引。

然而：

不使用索引cpu耗时：

Total MapReduce CPU Time Spent: 1 minutes 45 seconds 300 msec

使用索引cpu耗时：

Total MapReduce CPU Time Spent: 5 minutes 2 seconds 250 msec

让人很费解，使用索引后性能上没有得到提升。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

空中的鱼1987

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hive创建索引实战

奋斗的阿杰的博客

09-01

1326

hive创建索引

hive调优

shufangreal的博客

01-05

405

hive的常规优化 1.数据量小的时候，将map-reudce作业放在本地工作站执行,这样只会启动一个reducer，数据量大的时候不可取 SET mapreduce.framework.name = local; SET mapred.local.dir = ‘/tmp/<username>/mapred/local’ # 应指向在本地计算机上有效的路径（否则，用户将获得分配本地磁盘...

1 条评论您还未登录，请先登录后发表或查看评论

hive--union all后无数据/少数据

qq_46893497的博客

08-12

6145

hive参数优化-----亲测有效

lcm_linux的博客

01-15

3401

hive查询的时候，导致服务器负载过高，load值飙升，服务器CPU是8个，按理说load不超过8，都应算ok的，但是，hive在部署完后没有调参，导致在执行过程中，load值达到了7.8以上，服务器连接出现问题，因此想到了调参，现在整理如下：本次查询所用测试语句为： select util_lnadw21ifj1579078492403.e2467e8ab37945a3869c6d309......

Hive实战

KamRoseLee的博客

07-29

741

•Hive系统结构 •数据流(in taobao) –数据源：weblog/db/… –数据同步：jdbcdump –报表计算/预处理/ETL：Hive –数据入库：dbloader Hive QL •数据类型 –Primitive •int / bigint / smallint / tinyint •boolean •double / float •string...

Hive索引功能测试

Syn良子的博客

08-31

279

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得一.测试数据准备 1.新建一个gen-data.sh脚本，内容如下 #! /bin/bash #generating 1.7G raw

Hive索引

feizuiku0116的博客

11-03

5365

一、描述 Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少Map Reduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格，所以并不是总能生效。二、Hive原始索引 Hive的索引目的是提高Hive表指定列的查询速度。没有索引时，类似’WHERE tab1.col1 = 10’ 的

hive索引

野生码农

10-15

1108

hive的索引包括三种：Local Index、Cube和Global Index。接下来分别进行介绍。通俗的说：global index，标记记录在哪个文件。local index，标记记录在单个文件里哪个位置。cube，类似local index，同时对多个字段做索引。 Local Index是将列式存储的每个单元看作整体建立的。Local Index的创建采用了字典编码技术。相对...

Hive索引与性能增强

# 第一章：Hive索引的基础概念 ## 1.1 什么是Hive索引在大数据领域中，Hive作为一种基于Hadoop的数据仓库工具，通过类SQL的语法对存储在HDFS上的数据进行查询和分析。而Hive索引则是一种用于加速数据检索的技术。...

hive 生产问题汇总

热门推荐

奇迹虎虎的博客

02-18

1万+

Hive调优及参数优化，涵盖：基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......

hive查询结果缺少数据——某些union all和join情况下会缺少数据

weixin_42474635的博客

09-01

3651

在使用hive sql 进行union all查询结果时，缺少数据在使用hive sql 进行join 关联时,查询结果明显缺少数据，或于presto或其他查询渠道查询结果不一致时原因可能是orc文件在加工过程中造成的部分元数据丢失，关闭元数据优化就可以了 set hive.optimize.index.filter=false; ...

hive 总结三（压缩）

weixin_30284355的博客

07-16

170

hive-参数调优

weixin_44280356的博客

04-19

2421

set hive.vectorized.execution.enabled=false; set mapreduce.map.speculative=false; set mapreduce.reduce.speculative=false; use ads_chpp_dev; set mapreduce.job.queuename=badm; ...

hive 参数设置大全

独木不成林，单弦不成音。

12-29

9802

合理设置参数，让集群飞起来~

Hive 的并行执行和优化器

互联网知识分享

08-06

890

在查询中发现了聚合操作，并且聚合的列是有序的，可以通过部分聚合推导出最终的聚合结果，减少数据的读取和传输量。在查询中发现了聚合操作，并且聚合的列是有序的，可以通过部分聚合推导出最终的聚合结果，减少数据的读取和传输量。并行执行：划分好的任务被提交到集群中的多个节点上并行执行，每个节点上的任务读取和处理自己负责的数据块。通过分析查询中使用的列，只选择需要的列进行处理，减少数据的读取和传输量。通过分析查询中使用的列，只选择需要的列进行处理，减少数据的读取和传输量。将过滤条件下推到数据源，减少数据的读取和传输量。

Hive 系列（六）—— Hive 视图和索引

wr_java的博客

04-18

693

Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象，没有关联的存储 (Hive 3.0.0 引入的物化视图除外)，当查询引用视图时，Hive 可以将视图的定义与查询结合起来，例如将查询中的过滤器推送到视图中。Hive 在 0.7.0 引入了索引的功能，索引的设计目标是提高表某些列的查询速度。如果没有索引，带有谓词的查询（如'WHERE table1.column = 10'）会加载整个表或分区并处理所有行。

07-Hive优化---高级部分3

qq_43819048的博客

09-01

264

不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。其实数据倾斜这个问题，在MapReduce编程模型中十分常见，根本原因就是大量相同的key被分配到一个reduce里（例如：要将a-q的有10条数据，q-z有100万条数据，这就造成第一个reduce几乎瞬间就能完成，而第二个reduce需要很长时间才能完成），造成一个reduce任务处理不过来，但是其他的reduce任务没有数据可以处理。

hive索引有哪些类型

05-18

Hive索引主要有以下几种类型： 1. 基于单个列的索引（Single Column Index）：只包含一个列的索引，可以加速单个列上的查询。 2. 基于多个列的索引（Composite Index）：包含多个列的索引，可以加速多个列的组合...