目录
1、内连接(INNER JOIN)
2、左外连接(LEFT OUTER JOIN)
3、右外连接(RIGHT OUTER JOIN)
4、满外连接(FULL OUTER JOIN)
2、Sort By-每个MapReduce内部局部排序
一、SELECT语法
1、基本语法
SELECT [ALL | DISTINCT]select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[HAVING where_condition]
[ORDER BY col_list]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]
参数说明
1、ORDER BY用于全局排序,就是对指定的所有排序键进行全局排序,使用ORDER BY的查询语句,最后会用一个Reduce Task来完成全局排序。
2、sort by用于分区内排序,即每个Reduce任务内排序。,则sort by只保证每个reducer的输出有序,不保证全局有序。
3、distribute by(字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列。
4、cluster by(字段) 除了具有Distribute by的功能外,还兼具sort by的排序功能。。
因此,如果distribute by和sort by字段是同一个时,此时,cluster by = distribut