总体介绍
了解大数据离线数仓架构
了解项目部署环境(数据规模和集群规模)
了解项目ER图
了解项目需求
- 阶段一
了解行业背景、了解项目背景,项目架构介绍、技术选型,项目环境(数据/硬件)介绍,项目ER图、项目需求介绍。
基于项目需求实现查询功能(写SQL)或整理出查询流程 - 阶段二
学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MYsql同步到Hive
使用sqoop,将剩余的数据在MYsql同步到Hive
- 阶段三
学习数据仓库理论知识、创建数据仓库,并导入数据。
解决数据缓慢变化维问题
- 阶段四
编写SQL实现以下业务分析,并按照数据仓库结构存出结果
基于日期的订单指标分析(4)
基于地域的订单分类指标分析(18)
基于用户的订单指标分析(24)
基于用户的退货指标分析(5)
- 阶段五
学习、掌握kylin的使用,使用kylin,为数据仓库内的数据进行预计算
- 阶段六
用户浏览记录整理分析(点击流)
电商行业分析
近年来,中国的电子商务快速发展,交易额连创新高,电子商务在各领域的应用不断拓展和深化、相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力和能力 不断增强。电子商务正在与实体经济深度融合,进入规模性发展阶段,对经济社会生活的影响不断增大,正成为我国经济发展的新引擎。