hive能加快MySQL查询速度吗_加快 hive 查询的 5 种方法

1. 使用 Tez

set hive.execution.engine=tez;

2. 使用 ORCFILE。当有多个表 join 时,使用 ORCFile 进行存储,会显著地提高速度。

CREATE TABLE A_ORC (

customerIDint, name string, age int, address string) STORED AS ORC tblproperties ("orc.compress"= "SNAPPY");

3. 使用 VECTORIZATION。会提高 scans, aggregations, filters and joins 等操作的性能。它会把 1024条记录做为一批进行处理,而不是每条记录进行处理。

set hive.vectorized.execution.enabled = true;

set hive.vectorized.execution.reduce.enabled= true;

4. 使用 Cost-based optimization (CBO) 。根据查询代价进行优化。

set hive.cbo.enable=true;

set hive.compute.query.using.stats=true;

set hive.stats.fetch.column.stats=true;

set hive.stats.fetch.partition.stats=true;

需要运行 "analyze" 命令为 CBO 收集表的各种统计信息。

analyze table tbl_student compute statistics;

analyze table tbl_student compute statisticsfor columns birthday, race;

5. 优化 sql

SELECT clicks.* FROM clicks inner join(selectsessionID, max(timestamp) as max_ts from clicks

group by sessionID) latest

ON clicks.sessionID=latest.sessionID and

clicks.timestamp= latest.max_ts;

使用下面的 sql 代替上面的

SELECT *FROM

(SELECT*, RANK() over (partition by sessionID,

order by timestamp desc) as rank

FROM clicks) ranked_clicks

WHERE ranked_clicks.rank=1;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值