hive-sql高频命令总结

最新推荐文章于 2024-07-08 11:25:23 发布

summer_dai

最新推荐文章于 2024-07-08 11:25:23 发布

阅读量977

点赞数

分类专栏： hive-sql 文章标签： mysql hive

本文链接：https://blog.csdn.net/weixin_41109972/article/details/114288234

版权

COUNT

count(*)：所有行进行统计，包括NULL行
count(1)：所有行进行统计，包括NULL行
count(column)：对column中非Null进行统计

ROW_NUMBER()

语法形式：ROW_NUMBER() OVER(PARTITION BY COL1 ORDER BY COL2)
解释：根据COL1分组，在分组内部根据 COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的唯一的)
常用的使用场景：例如取每个学科的前3名

PERCENT_RANK()

语法形式：PERCENT_RANK() OVER(PARTITION BY COL1 ORDER BY COL2)
结果可以视作为rank()的结果，除以最大的编号
注意排名第一的从0开始

汇总不去重

常应用于统计PV粒度数据

sum(case when (“条件”) then 1 else 0 end) as expo

去重汇总

常应用于统计UV粒度数据

count(distinct case when (“条件” ) then col_name else null end) as expo_uv

取表格json格式的字段

get_json_object(col_name,'$.（json中的字段名）')

load data infile

load data infile语句从1个文本文件中以很高的速度读入1个表中。

基本语法：

load data [low_priority] [local] infile 'file_name txt' [replace | ignore]
into table tbl_name
[fields
[terminated by't']  #表示一行文本用什么作为分隔符
[OPTIONALLY] enclosed by '']
[escaped by'' ]]
[lines terminated by'n']   #表示行与行文本用什么作为换行，默认是\n
[ignore number lines]
[(col_name, )]

在用python执行sql语句之前，需要做两件事：

1、通过pymysql.connect链接数据库时应加上local_infile=1这个参数，例如：

db = pymysql.connect(host='xxxxx', port=xxxx, user='root', passwd='xxxxxx',
                             db='xxxxx', charset='xxxxxx', local_infile=1)

2、首先，在MySQL的命令行打开local_infile’;

最低0.47元/天解锁文章

summer_dai

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
hive-sql高频命令总结

COUNTcount(*)：所有行进行统计，包括NULL行count(1)：所有行进行统计，包括NULL行count(column)：对column中非Null进行统计ROW_NUMBER()语法形式：ROW_NUMBER() OVER(PARTITION BY COL1 ORDER BY COL2)解释：根据COL1分组，在分组内部根据 COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的唯一的)常用的使用场景：例如取每个学科的前3名汇总不去重常应用于统计PV
复制链接

扫一扫

专栏目录