数仓
YY_pdd
linux and bigdata studying ......
展开
-
hive常见面试题
hive常见面试题1、大表join小表产生的问题,怎么解决?大表join小表,独钟爱mapjoin;MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。在0.7版本之后,默认自动会转换Map Join;Mapjoin分为两个阶段:通过mapreduce local task,将小表读入内存,生成HashTableFiles上传原创 2020-10-31 15:03:18 · 2392 阅读 · 1 评论 -
即席查询之presto
即席查询之presto即席查询之presto简介架构优缺点性能presto安装使用docker安装(2个G谨慎安装)安装docker使用docker安装presto使用安装包安装安装presto Server安装presto client可视化安装presto优化数据存储查询sql只选择使用的字段过滤条件必须加上分区字段group by语句优化order by时使用limit使用join语句时间大表放在左边注意事项字段名反引用时间函数不支持insert overwriteparquet格式即席查询之pre原创 2020-10-25 20:26:22 · 776 阅读 · 0 评论 -
hive之HQL常用命令
Hive之HQL常用命令HQL常用命令Hive之HQL常用命令一、DDL数据定义1、创建数据库:2、查询数据库:3、修改数据库:4、删除数据库:5、创建表:6、分区表:7、修改表:8、删除表:二、DML数据操作1、向表中加载数据:2、插入数据:3、import的导入导出:4、数据导出5、清除表中数据:三、查询1、查询:2、算术运算符:+、-、*、/、%、&、|、^、~3、常用函数:4、limit语句:限制返回的函数,在sql语句最后一行;where语句:筛选条件;5、比较运算符:between、i原创 2020-09-26 11:05:40 · 883 阅读 · 1 评论