- 博客(3)
- 资源 (2)
- 收藏
- 关注
转载 in 和 exist 区别
select * from Awhere id in(select id from B)以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录. 它的查询过程类似于以下过程 List resultSet=[]; Array A=(select * f
2016-08-30 23:38:04
717
原创 Hive的Collect函数
有以下表 id name 1001 A 1001 B 1001 C实现以下功能 id name 1001 A,B,C即按照id 进行group by,将每个id的name组成一个list放到name字段中。select id,collect_list(name) from table group by id若name中有重复的值,可以用collect_
2016-08-24 09:22:59
28005
原创 Spark概述
概述:ApacheSpark™ is a fast and general engine for large-scale data processing.如官网所说,Spark是快速处理大规模数据的引擎,对应的Hadoop的MR引擎我们听到的Spark比Hadoop快100倍,其实是比MR快,MR将数据的中间结果写入磁盘,而Spark则是直接写入内存,在一定程度上,加速了程序的处理。
2016-08-01 20:41:27
951
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人