- 博客(6)
- 收藏
- 关注
原创 Hive分析窗口函数(一) SUM,AVG,MIN,MAX
@[TOC](Hive分析窗口函数(一) SUM,AVG,MIN,MAX)Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.11.数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createtime string, --day pv INT
2021-01-11 11:06:03 1505
原创 图文理解 Spark 3.0 的动态分区裁剪优化
图文理解 Spark 3.0 的动态分区裁剪优化1.Spark 中的静态分区裁剪2.动态分区裁剪3.物理计划阶段优化Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。1.Spark 中的静态分区裁剪在介绍动态分区裁剪之前,有必要对 Spark 中的静态分区裁剪进行介绍。在标准数据库术语中,裁剪意味着优化器将避免读取不包含我们正在查找的数据的文件。例如我们有以下的查询 S
2021-01-08 10:44:15 246 1
原创 Hive面试题
Hive面试题Hive高频面试题1.简述Hive的主要架构2.Hive和传统数据库有和区别?2.1.数据存储位置2.2.数据更新2.3.执行延迟2.4.数据规模3.Hive的内部表和外部表分别是什么?有什么区别?3.1.删除数据时:3.2.在公司生产环境下,什么时候创建内部表,什么时候创建外部表?4.Hive中order by、sort by、distribute by、cluster by有什么区别?5.Hive中常用的系统函数都有哪些?6.如何在Hive中自定义UDF、UDTF函数?6.1.在项目中是否
2021-01-08 10:05:59 616
转载 Flink高频面试题
Apache FlinkFlink高频面试题1.面试题一:公司怎么提交实时任务?2.面试题二:怎么做压力测试和监控?3.面试题三:为什么使用Flink替代Spark?4.面试题四:Flink的checkPoint存在哪里?5.面试题五:如果下级存储不支持事务,Flink如何保证exactly-once?6.面试题六:说一下Flink的状态机制。7.面试题七:海量key去重问题。8.面试题八:Flink的CheckPoint和Spark的比较。9.面试题九:Flink的三种语义是什么?分别说出应用场景。10.
2021-01-05 16:34:35 478
原创 shell变量多行变为一行
问题场景:在脚本执行spark-sql,获取查询结果。问题描述:spark-sql执行结果赋值给一个变量以后,再打印出来,发现变量为多行的,不是我们想要的效果。result=`spark-sql -e "select * from tbaleName;"`echo $result 解决方案:利用xargs 和 awkresult=`spark-sql -e "select * from tbaleName;"` #利用xargs把结果变为一行,然后通过awk拿到自己想要的结果
2020-12-24 23:08:15 1273
原创 shell中去除字符串所有空格或者去除变量首位空格的几种方法
shell中去除字符串所有空格或者去除变量首位空格的几种方法问题描述使用方法1.2.3.4.问题描述shell脚本中,获取一个变量以后,可能首位包含空格,不是我们想要的,这个时候需要我们去除首位空格。使用方法1.eval echo " abc123 " #和下面的差不多,一步到位2.a=' 123456 'echo $(echo $a) #去除左右空格3.a=' 123456 'echo ${a// /} # 这个是去除所有的空格4.a=' 123456 'ec
2020-12-23 22:28:28 6883
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人