- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 表中含有重复键,连接会产生很大的记录
如果有表中有重复键,做表连接后,可能会产生很大的数据表A 有两个重复键a:col1 col2a 1a 2表B 有两个重复键a:col1 col2a 3a 4做内连接:select * from A join B on A.col1 = B.col1, 结果a 1 a 3a 1 a4a 2 a
2015-06-09 20:35:45 562
原创 Hive 知识盲点
1. 元数据配置2. 集合数据类型STRUCT:MAP:ARRAY:3.分割符4. 创建数据库,指定位置5. 创建表:配置参数6. 外部表7. 分区表、管理表8. 外部分区表9. 自定义表存储格式10. 增删改表分区11. 装载数据12. 动态分区插入
2015-06-03 21:16:31 475
原创 Pig 知识盲点
1. Word Count 例子input = load 'file' as (line)words = foreach input generator flatten(TOKENIZE(line)) as word;groupwords = group words by word;wordcount = foreach groupwords generator gr
2015-06-03 20:38:31 465
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人