- 博客(4)
- 资源 (21)
- 收藏
- 关注
原创 数据仓库基础
数据仓库概念数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合面向主题:操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。集成:数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来,进行加
2012-08-30 09:40:43 2993
原创 hive修改表模式
hive用户可以通过alter语句更改table属性Alter Partitions增加partitions:ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec
2012-08-14 09:20:31 60815
原创 hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的
2012-08-08 10:50:22 83650 1
原创 hive bucket
hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味
2012-08-01 11:35:53 17025 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人