![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
Lyle-liang
大数据,互联网金融交易
展开
-
Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志...转载 2018-04-03 17:13:51 · 162 阅读 · 0 评论 -
Descriptor location does not exist: hdfs://<path>.metadata
Sqoop 1.4.6 的bug,文章发表时为open状态,fix version未定:https://issues.apache.org/jira/browse/SQOOP-3151原创 2018-04-26 18:20:10 · 1394 阅读 · 0 评论 -
Hive存储格式textfile转orcfile,并导出数据到另一hive集群
1. 在源hive数据库,创建一张orcfile格式的临时表CREATE TABLE `user_tmp`( `id` bigint, `created` string, `modified` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STORED AS orcfile;2. 在目标hive数据库,创建一张orcfile格式...原创 2018-05-30 14:28:45 · 7013 阅读 · 0 评论 -
数据仓库建模
Caption原创 2018-09-06 16:20:01 · 361 阅读 · 0 评论 -
Hive SQL on where 优化
1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...原创 2018-11-13 16:10:47 · 2591 阅读 · 2 评论