一、回顾
-》基于ETL结果进行数据仓库建模
-》ETL结果
true72.46.128.140-2013-09-18 07:58:50/hadoop-zookeeper-intro/20014722"https://www.google.com/""Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTML,likeGecko)Chrome/21.0.1174.0Safari/537.1"
valid
ip
user_id
time
request
status
body_size
http_ref
user_agent
-》pageview模型
07f26862-f31c-40dd-ad91-2d61fac91a9c1.80.249.223-2013-09-18 07:57:33/hadoop-hive-intro/160"http://www.google.com.hk/url?sa=t&rct=j&q=hive%E7%9A%84%E5%AE%89%E8%A3%85&source=web&cd=2&ved=0CC4QFjAB&url=%68%74%74%70%3a%2f%2f%62%6c%6f%67%2e%66%65%6e%73%2e%6d%65%2f%68%61%64%6f%6f%70%2d%68%69%76%65%2d%69%6e%74%72%6f%2f&ei=5lw5Uo-2NpGZiQfCwoG4BA&usg=AFQjCNF8EFxPuCMrm7CvqVgzcBUzrJZStQ&bvm=bv.52164340,d.aGc&cad=rjt""Mozilla/5.0(WindowsNT5.2;rv:23.0)Gecko/20100101Firefox/23.0"14764200
session_id
ip
user_id
time
request
step
length
http_ref
user_agent
body_size
status
-》visit模型
004b0a11-081b-402c-be5c-8957f85a5abb180.153.163.1902013-09-18 09:37:412013-09-18 09:37:41/finance-rhive-repurchase//finance-rhive-repurchase/"-"1
session_id
ip
intime
outtime
inpage
outpage
refere
numpage
二、数据仓库的设计
-》表的类型
-》事实表
-》订单
订单id 订单类型 订单名称
-》用户表
-》行为表
-》维度表
-》时间维度
时间维度id 年 季度 月 周 日 小时
-》地域维度
地域维度id 国家 省份 城市
-》构成
某个时间某个地域的订单信息
时间维度id 地域维度id 订单id 订单类型 订单名称
-》常见模型
-》星型模型:存在冗余,但数据处理的效率较高
-》雪花模型:没有冗余,但数据处理时需要进行关联查询
三、构建数据仓库
-》构建ETL以后的源表
create datab
-》基于ETL结果进行数据仓库建模
-》ETL结果
true72.46.128.140-2013-09-18 07:58:50/hadoop-zookeeper-intro/20014722"https://www.google.com/""Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTML,likeGecko)Chrome/21.0.1174.0Safari/537.1"
valid
ip
user_id
time
request
status
body_size
http_ref
user_agent
-》pageview模型
07f26862-f31c-40dd-ad91-2d61fac91a9c1.80.249.223-2013-09-18 07:57:33/hadoop-hive-intro/160"http://www.google.com.hk/url?sa=t&rct=j&q=hive%E7%9A%84%E5%AE%89%E8%A3%85&source=web&cd=2&ved=0CC4QFjAB&url=%68%74%74%70%3a%2f%2f%62%6c%6f%67%2e%66%65%6e%73%2e%6d%65%2f%68%61%64%6f%6f%70%2d%68%69%76%65%2d%69%6e%74%72%6f%2f&ei=5lw5Uo-2NpGZiQfCwoG4BA&usg=AFQjCNF8EFxPuCMrm7CvqVgzcBUzrJZStQ&bvm=bv.52164340,d.aGc&cad=rjt""Mozilla/5.0(WindowsNT5.2;rv:23.0)Gecko/20100101Firefox/23.0"14764200
session_id
ip
user_id
time
request
step
length
http_ref
user_agent
body_size
status
-》visit模型
004b0a11-081b-402c-be5c-8957f85a5abb180.153.163.1902013-09-18 09:37:412013-09-18 09:37:41/finance-rhive-repurchase//finance-rhive-repurchase/"-"1
session_id
ip
intime
outtime
inpage
outpage
refere
numpage
二、数据仓库的设计
-》表的类型
-》事实表
-》订单
订单id 订单类型 订单名称
-》用户表
-》行为表
-》维度表
-》时间维度
时间维度id 年 季度 月 周 日 小时
-》地域维度
地域维度id 国家 省份 城市
-》构成
某个时间某个地域的订单信息
时间维度id 地域维度id 订单id 订单类型 订单名称
-》常见模型
-》星型模型:存在冗余,但数据处理的效率较高
-》雪花模型:没有冗余,但数据处理时需要进行关联查询
三、构建数据仓库
-》构建ETL以后的源表
create datab