Hive数据查询（基本查询、RLIKE正则匹配、union联合、Sampling采样、Virtual Columns 虚拟列）

吗喽也是命

已于 2023-09-08 12:40:11 修改

阅读量1k

点赞数 1

分类专栏：大数据文章标签： hive hadoop 数据仓库

于 2023-09-07 15:55:21 首次发布

本文链接：https://blog.csdn.net/2202_75347029/article/details/132719587

版权

大数据专栏收录该内容

41 篇文章 10 订阅

订阅专栏

本文介绍了HiveSQL中的基本查询操作，如全选、单列查询、数据量统计等，以及RLIKE正则表达式匹配、union联合查询、数据抽样（随机分桶和数据块抽样）和虚拟列的使用。这些技巧对于Hive数据库管理和数据分析至关重要。

摘要由CSDN通过智能技术生成

一、基本查询

1.查询所有

select * from table_name;

2.查询单列

select column_name from table_name;

3.查询数据量

select count(*) from table_name;

4.过滤(where)

select * from table_name where column_name like ' XXX';

5.查找最大值(max)

select * from table_name order by column_name desc limit number;

6.分组统计(count)

select count(*) as 别名 from table_name group by column_name;

7.分组查找(group by)

select max(column_name) as 别名 from table_name group by column_name;

8.计算均值(avg)

select avg(column_name) from table_name group by column_name;

9.分组过滤(having)

select avg(column_name) from table_name group by column_name having 过滤条件;

10.关联表(join)

select a.column1,a.column2,b.column1,b.column2 from a join b on 关联条件;

11.左外关联(left join)

select a.column1,a.column2,b.column1,b.column2 from a left join b on 关联条件;

二、RLIKE正则匹配

正则规则字符
字符	匹配	示例
.	任意单个字符	jav.匹配java
[ ]	[ ]中任意一个字符	java匹配j[ abc ]va
^	在[ ]内的开头，匹配除[ ]内字符之外的任意一个字符	java匹配j[ ^b-f ]va
\|	或	x \| y 匹配x或y
\	将下一个字符标记为特殊字符、文本、反向引用或八进制转义符	\（匹配（
$	匹配输入字符串结尾的位置，如果设置RegExp对象的Multiline属性，$还会与“\n”或"\r"之前的位置匹配	；$匹配位于一行及外围的；号
*	0次或多次匹配前面的字符	zo*匹配zoo或z
+	一次或多次匹配前面的字符	zo+匹配zo或zoo
？	0次或一次匹配前面的字符	zo？匹配z或zo
p{n}	n是非负整数，正好匹配n次	o{2}匹配food中的两个o
p{n，}	至少匹配n次	o{2，}匹配foood中的所有o
p{n，m}	m和n是非负整数，其中n<=m，匹配至少n次，至多m次	o{1，3}匹配fooood中三个o
\p{P}	一个标点字符！“#$%&+,-./:;<=>?@[\]^_'{\|}~”	J\p{P}a匹配J？a
\b	匹配一个字边界	va\b匹配java中的va，但匹配不到javar中的va
\B	非字边界匹配	va\B匹配javar中va，但匹配不到java中的va
\d	数字字符匹配	1[\\d]匹配13
\D	非数字字符匹配	[\\D]java匹配Jjava
\w	单词字符	java匹配[\\w]ava
\W	非单词字符	$java匹配[\\W]java
\s	空白字符	Java 2匹配java\\s2
\S	非空白字符	java匹配j[\\S]va
\f	匹配换页符	等效于\x0c和\cJ
\n	匹配换行符	等效于\x0a和\cJ