查询顺序:
SELECT ... FROM ... WHERE ... GROUP BY ... HAVING ... ORDER BY ...
SQL的执行顺序:
FROM ... JOIN ... ON ... WHERE ... GROUP BY ... AVG SUM 等聚合函数 ... HAVING ... 计算所有表达式 ... SELECT ... DISTINCT ... ORDER BY ... LIMIT ...
HIVE的执行顺序:
FROM ... WHERE ... SELECT ... GROUP BY ... HAVING ... ORDER BY ...
Hive的执行顺序也是MapReduce的执行顺序:
map阶段:
- 执行from加载,进行表的查找与加载
- 执行where过滤,进行条件过滤与筛选
- 执行select查询:进行输出项的筛选
- 执行group by分组:描述了分组后需要计算的函数
- map端文件合并:map端本地溢出写文件的合并操作,每个map最终形成一个临时文件。 然后按列映射到对应的reduceReduce阶段:
reduce阶段:
- group by:对map端发送过来的数据进行分组并进行计算。
- select:最后过滤列用于输出结果
- limit排序后进行结果输出到HDFS文件
SQL里使用正则表达式:
regexp_like(匹配)
regexp_instr(包含)
regexp_replace(替换)
regexp_substr(提取)
SQL中的函数:
- 算法函数
- 字符串函数
- 日期函数
- 转换函数
算术函数:
- abs():绝对值
- mod():取余
- round():四舍五入,2个参数:字段名,小数位
字符串函数:
- concat():合并多个字符串
- length():计算字段长度,汉字计3个,其他计1个
- char_length():计算字段长度,都计1个
- lower():小写
- upper():大写
- replace():3个参数:要替换的,被查找替换的,替换成哪个字符串
- substring():截取字符串,3个参数:被截取的字符串,开始截取的位置,想截取的字符串长度
SQL中的日期函数:
注意:date日期的格式必须是 yyyy-mm-dd,有的时候日期也会存储为字符串格式。
- current_date():当前日期
- current_time():当前时间
- current_timestamp():日期 + 时间
- extract():抽取具体的年月日
- date()
- year()
- month()
- day()
- hour()
- minute()
- second()
SQL中的转换函数:
- cast():表达式通过 as 分为2个参数:原始数据和目标数据类型
- coalesce():返回第一个非空数值
注:presto中的转换函数:
- cast(value as type)
- try_cast(value as type) :与cast相似,区别是转换失败返回null
例如:
select cast(123.456 as int)
select coalesce(null,1,2,3)
Mysql:
- 在Linux下严格区分大小写
- 在Windows下不区分
Hive:
- 不区分大小写
SQL99中的连接查询:
1. 交叉连接(cross join)
在SQL92中为笛卡尔乘积
select * from table1 cross join table2
2. 自然连接(natural join)
在SQL92中为等值连接,查询两张表中所有相同字段,然后进行连接
select order_id,user_id from table1 natural join table2
3. ON连接(join on)
on可以连接等值或者非等值的
(1) 等值的:
select order_id,user_id from table1 join table2 on table1.user_id = table2.user_id
(2) 非等值的:
select order_id,user_id from table1 join table2 on order_id between 1 and 99
4. USING连接(join using)
select order_id,user_id from table1 join table2 using(order_id)
5. 外连接
- 左外连接:left join 或 left outer join
- 右外连接:right join 或 right outer join
- 全外连接:full join 或full outer join(mysql不支持,oracle、sql server支持)
- 自连接(能使用自连接,不要使用子查询,因为大部分DBMS对自连接做了优化)
注:多表连接:
select
from table1
join table 2 on table1.id = table2.id
join table3 on table2.id = table3.id
SQL中的if、case when:
if表达式:
if(expr1,expr2,expr3)
和三目运算符的原理一样,如果expr1是true,则 if() 返回expr2,否则返回expr3。
case when表达式:
select case 列名
when 1 then '结果1'
when 2 then '结果2'
else '结果3'
end
或者
select case
when 列名 = 1 then '结果1'
when 列名 = 2 then '结果2'
else '结果3'
end