采用星型模型
1、事实表
| 原始数据表:t_origin_weblog | ||
| valid | string | 是否有效 |
| remote_addr | string | 访客ip |
| remote_user | string | 访客用户信息 |
| time_local | string | 请求时间 |
| request | string | 请求url |
| status | string | 响应码 |
| body_bytes_sent | string | 响应字节数 |
| http_referer | string | 来源url |
| http_user_agent | string | 访客终端信息 |
|
|
|
|
| ETL中间表:t_etl_referurl | ||
| valid | string | 是否有效 |
| remote_addr | string | 访客ip |
| remote_user | string | 访客用户信息 |
| time_local | string | 请求时间 |
| request | string | 请求url |
| status | string | 响应码 |
| body_bytes_sent | string | 响应字节数 |
| http_referer | string | 外链url |
| http_user_agent | string | 访客终端信息 |
| host | string | 外链url的域名 |
| path | string | 外链url的路径 |
| query | string | 外链url的参数 |
| query_id | string | 外链url的参数值 |
|
|
|
|
| 访问日志明细宽表:t_ods_access_detail | ||
| request_level1 | string | 请求的一级栏目 |
| request_level2 | string | 请求的二级栏目 |
| request_level3 | string | 请求的三级栏目 |
| valid | string | 是否有效 |
| remote_addr | string | 访客ip |
| remote_user | string | 访客用户信息 |
| time_local | string | 请求时间 |
| request | string | 请求url |
| status | string | 响应码 |
| body_bytes_sent | string | 响应字节数 |
| http_referer | string | 外链url |
| http_user_agent | string | 访客终端信息整串 |
| http_user_agent_browser | string | 访客终端浏览器 |
| http_user_agent_sys | string | 访客终端操作系统 |
| http_user_agent_dev | string | 访客终端设备 |
| host | string | 外链url的域名 |
| path | string | 外链url的路径 |
| query | string | 外链url的参数 |
| query_id | string | 外链url的参数值 |
| daystr | string | 日期整串 |
| tmstr | string | 时间整串 |
| month | string | 月份 |
| day | string | 日 |
| hour | string | 时 |
| minute | string | 分 |
| ## | ## | ## |
| mm | string | 分区字段--月 |
| dd | string | 分区字段--日 |
2、维度表
| 时间维度 v_year_month_date |
| year |
| month |
| day |
| hour |
| minute |
| 访客地域维度t_dim_area |
| 北京 |
| 上海 |
| 广州 |
| 深圳 |
| 河北 |
| 河南 |
| 终端类型维度t_dim_termination |
| uc |
| firefox |
| chrome |
| safari |
| ios |
| android |
| 网站栏目维度 t_dim_section |
| 跳蚤市场 |
| 房租信息 |
| 休闲娱乐 |
| 建材装修 |
| 本地服务 |
| 人才市场 |
本文详细介绍了星型模型在网站日志数据分析中的应用,包括事实表和维度表的设计,如时间维度、访客地域维度及终端类型维度等,通过数据预处理和ETL过程,将原始数据转化为可用于业务分析的格式。
1515

被折叠的 条评论
为什么被折叠?



