hive sql
文章平均质量分 86
ronaldo2018
这个作者很懒,什么都没留下…
展开
-
日期转换(函数)--hive 和presto
一.timestamp 类型 转换为其他类型场景 presto用法 hive用法 转换成北京时区的string字符串,格式为y-m-d date_format(created_at AT TIME ZONE 'Asia/Shanghai','%Y-%m-%d') 如果需要到时分秒,可在%Y-%m-%d'基础上加格式 from_unixtime(unix_timestamp(from_utc_timestamp(`created_at`,'A..原创 2020-07-22 17:54:39 · 7100 阅读 · 0 评论 -
Hive sql优化
hive sql 运行太慢,如何优化?经验不丰富的数据分析或者BI工程师往往上来就看sql,调整sql内容,其实不然。一.业务层面first of all, 优先了解sql反应的业务,先把业务梳理清晰,去除掉不必要的表,关联。这个只能泛泛而谈,但确是sql优化应该最先考虑的。在有一定业务经验后,根据实际情况进行优化。二.每张数据表的性能1.数据表的存储格式,存储硬盘(...原创 2019-04-09 18:42:01 · 417 阅读 · 0 评论 -
HIVE和HBASE区别
HIVE和HBASE区别1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。Apache...转载 2019-03-29 11:28:53 · 3871 阅读 · 0 评论 -
hive sql执行方式对比(tez,mapreduce,spark,storm)
执行方式 简介 优点 缺点 MapReduce 是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算 大数据量下优势明显 读写hdfs次数多;数据量不大时性能一般 Tez ...原创 2019-03-27 18:27:43 · 3055 阅读 · 0 评论 -
dbeaver常用快捷键
hot keyctrl + enter 执行sqlctrl + \ 执行sql,保留之前窗口结果ctrl + shift + ↑ 向上复制一行ctrl + shift + ↓ 向下复制一行ctrl + alt + F 对sql语句进行格式化,对于很长的sql语句很有用ctrl + d 删除当前行alt + ↑ 向上选定一条sql语句alt + ↓ 向下选定一条sql语句ctr...原创 2019-03-25 17:37:02 · 25670 阅读 · 1 评论 -
hive 动态分区参数设置
使用Hive动态分区需要注意设定以下参数:1.是否开启动态分区功能,默认false关闭。 默认值:falsehive.exec.dynamic.partition =false1使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition =true12.动态分区的模式: 默认值:stricthive.exec.dynamic.pa...原创 2018-12-05 19:14:15 · 11382 阅读 · 0 评论 -
Hive分区(静态分区+动态分区)
Hive分区的概念与传统关系型数据库分区不同。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。 所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子...转载 2018-11-30 14:08:08 · 468 阅读 · 0 评论 -
Hive中join的三种方式
一.common join common join也叫做shuffle join,reduce join操作。适用于两个table的大小相当,但是又不是很大的情况下使用。具体流程就是在map端进行数据的切分,一个block对应一个map操作,然后进行shuffle操作,把对应的block shuffle到reduce端去,再逐个进行联合。缺点:容易产生数据倾斜,大数据量下性能不好 ...转载 2018-11-21 15:27:14 · 1282 阅读 · 1 评论 -
hive,spark sql优化
一.hive sql优化1.发生数据倾斜,如何解决?什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点1.1 原因1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜1.2 表现任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其...原创 2018-11-06 20:40:20 · 2018 阅读 · 0 评论 -
Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作
Alter Table 语句Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ......转载 2018-10-16 17:06:17 · 4117 阅读 · 0 评论 -
Hive存储格式对比
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。TextFile每一行都...转载 2018-08-21 14:37:57 · 1400 阅读 · 0 评论 -
hive 的几种存储格式
Hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以<key,value>的形式序列化到文件中存储方式:行存储可分割 压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcfile存储方式:数据按行分...转载 2018-06-14 17:51:29 · 664 阅读 · 0 评论 -
hive sql的一些特殊语法
1.ORACLE SQL: decode 在hive SQL: nexr_decodeoracle的 nvl 在hive sql: COALESCE2.array collect_set(col) Returns a set of objects with duplicate elements eliminatedcollect_set: 返回去重的元素数组。...原创 2018-04-19 21:33:11 · 3490 阅读 · 0 评论