mbb小马
码龄5年
关注
提问 私信
  • 博客:1,520
    1,520
    总访问量
  • 3
    原创
  • 213,411
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-08-18
博客简介:

mbb00的博客

查看详细资料
  • 原力等级
    当前等级
    0
    当前总分
    28
    当月
    0
个人成就
  • 获得15次点赞
  • 内容获得1次评论
  • 获得2次收藏
创作历程
  • 3篇
    2024年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive调优

但是order by会导致出现一个reducer的情况,所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名 最后套一层再用 order by,那么这个reducer 处理的数据量就小了很多。7.做hive 的join时,在业务允许的情况下,一定要提前去重,否则会出现数据膨胀的情况(笛卡尔积)2.slowStart参数,这个参数就是设置map任务完成多少后,才启动reduce的参数。2.有分区表的时候,一定是先过滤分区数据,本质就是分区裁剪。
原创
发布博客 2024.08.13 ·
382 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

Hive 中 with as 用法

with as:也叫子查询,先通过with语法将数据查询到内存,后面其它查询可以直接使用,不仅提高了查询性能,同时也提高了代码的可读性。1.前面每个as里都相当于一个子查询,可以看作一个独立模块,最后select则是整体查询,也是最终展示的查询结果。3.多个子句之间使用逗号分隔即可,最后一个子句与后面的查询语句不需要在添加逗号。2.with 子句必须在select之前定义。
原创
发布博客 2024.08.13 ·
492 阅读 ·
5 点赞 ·
0 评论 ·
1 收藏

HDFS数据同步到Hive

1.首先使用关键字external创建外部表2.location位置指向hdfs存储数据的路径3.只要创建的是外部表,location指向hdfs存储路径,数据就可以直接映射到hive表中4.可以在创建见一些临时表(内部表),通过查询写入数据5.后续操作尽可能在临时表操作,初始化数据保持不变。
原创
发布博客 2024.08.08 ·
647 阅读 ·
6 点赞 ·
1 评论 ·
1 收藏