![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sql
文章平均质量分 51
呔 小怪兽休走
这个作者很懒,什么都没留下…
展开
-
hive 存储格式理解(对比TextFile和RCFile)
serdeserde是序列化(serializer)和反序列化(deserializer)的简称Hive uses SerDe (and FileFormat) to read and write table rows.HDFS files --> InputFileFormat --> <key, value> --> Deserializer --> Row objectRow object --> Serializer --> <ke原创 2022-05-17 16:39:05 · 470 阅读 · 0 评论 -
通过hive底层执行过程排查hsql执行问题
众所周知,hive是执行在Hadoop集群上的数据仓库工具,它会将数据映射成表格的方式,以类似sql的语句执行mapreduce。那么,具体执行过程怎么转换成mapreduce任务的呢?首先 我们要清楚hivesql的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤,and 比or的优先级高 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序然后,比较重要的一点就是怎么运行的了,简单来说产生需要原创 2021-12-29 17:51:34 · 992 阅读 · 0 评论 -
es在hive建外表报错:Cannot detect ES version
在hive建es外表时遇到了一个错误:在建表语句中增加参数'es.nodes.wan.only' = 'true'之后还是报同样的错误。可是按理说之前在相同集群建es外表时候没有出现这样的错误。进入hive 的debug模式:hive -hiveconf hive.root.logger=DEBUG,console可以看到日志输出:Unsupported/Unknown Elasticsearch version 6.8.2想到可能是因为elasticsearch-hado..原创 2021-08-28 18:01:04 · 1982 阅读 · 0 评论 -
sql优化之-------spark实现hql时发现的order by、sort by 性能问题
1.删除分区ALTER TABLE my_partition_test_table DROP IF EXISTS PARTITION (p_loctype='MHA');2.显示分区:show partitions driver_ride_info3.动态插入分区insert overwrite table loan_f_milestone partition(day)select *,to_date(atv_tim)报错日志:Error: Java heap space原创 2021-08-12 09:45:09 · 1268 阅读 · 0 评论 -
sqoop导数据:hive to oracle
利用sqoop 从hive导数据到oracle可以分为两步:—hive导出数据到hdfsinsert overwrite directory "/home/hadoop/data/"ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' select {hive表字段} from stg.{hive表名};## —hdfs to oraclesqoop export --connect jdbc:原创 2021-05-26 15:16:02 · 1120 阅读 · 4 评论 -
hive窗口函数------- over()
功能:既能显示聚合前的数据 ,又能显示聚合后的函数执行顺序:最后一步执行 ,仅仅位于order by 之前 select查询中 存在多个窗口函数时 他们之间是没有影响的,每个窗口应用自己规则函数内容: over():partition by :分组(在分组内进行操作)。order by :默认从起点行到当前行。eg:sel...原创 2019-05-08 17:08:31 · 294 阅读 · 0 评论 -
HIVE SQL优化
SQL的执行顺序:第一步:执行FROM 第二步:WHERE条件过滤 第三步:GROUP BY分组 第四步:执行SELECT投影列 第五步:HAVING条件过滤 第六步:执行ORDER BY 排序Hive优化策略:1. 去除查询中不需要的column2. Where条件判断等在TableScan阶段就进行过滤3. 利用Partition信息,只读取符合条件的P...原创 2019-06-10 11:23:38 · 108 阅读 · 0 评论