![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据框架之实战-电商离线数据仓库
以电商离线数仓的实战案例,熟悉从零到一的搭建数仓的全过程,较深刻的理解大数据框架的应用
大数菌
这个作者很懒,什么都没留下…
展开
-
02.03第二篇之数据环境准备
第3 章数据环境准备3.1 安装Hive2.31)上传apache-hive-2.3.0-bin.tar.gz 到/opt/software 目录下,并解压到/opt/module[atguigu@hadoop102 software]$ tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/module/2)修改apache-hive-2.3.6-bin 名称为hive[atguigu@hadoop102 module]$ mv apache-hive-原创 2020-09-07 22:47:12 · 211 阅读 · 0 评论 -
02.02第二篇之业务数据采集模块
第2 章业务数据采集模块2.1 MySQL 安装2.1.1 安装包准备1)查看MySQL 是否安装,如果安装了,卸载MySQL(1)查看[root@hadoop102 桌面]# rpm -qa|grep mysql mysql-libs-5.1.73-7.el6.x86_64(2)卸载[root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_642)解压mysql-libs.zip 文件到当前目录[root@原创 2020-09-07 22:36:33 · 843 阅读 · 1 评论 -
02.01第二篇之电商业务简介
第1章 电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。例如:iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。SPU表示一类商品。好处就是:可以共用商品图片,海报、销售属性等。1原创 2020-09-07 22:09:25 · 554 阅读 · 0 评论 -
01.05第一篇之总结
第5 章总结5.1 数仓概念总结1)数据仓库的输入数据源和输出系统分别是什么?输入系统:埋点产生的用户行为数据、JavaEE 后台产生的业务数据。输出系统:报表系统、用户画像系统、推荐系统5.2 项目需求及架构总结5.2.1 集群规模计算5.2.2 框架版本选型1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)2)CDH:国内使用最多的版本,但CM 不开源,但其实对中、小公司使用来说没有影响。离线3)HDP:开源,可以进行原创 2020-08-31 17:55:52 · 195 阅读 · 0 评论 -
01.04第一篇之集群搭建&数据采集模块
第4 章集群搭建&数据采集模块4.0 虚拟机准备4.0.1 虚拟机内存分配1)从hadoop100的快照中克隆出3台虚拟机,并分配好内存建议内存不低于4G,尤其是hadoop102,作为主机,后续可能要8G才能较顺利运行机子建议内存Hadoop1028G作为主节点Hadoop1032GHadoop1042G2)原始虚拟机的已经创建好了root和user的账号&密码如下:root: xxxxxxxxatguigu: 12345原创 2020-08-31 17:29:37 · 806 阅读 · 1 评论 -
01.03第一篇之数据生成模块
第3 章数据生成模块3.1 埋点数据基本格式Ø 公共字段:基本所有安卓手机都包含的字段Ø 业务字段:埋点上报的字段,有具体的业务类型下面就是一个示例,表示业务字段的上传。下面就是一个示例,表示业务字段的上传。{"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段 **"mid": "", // (String)** **设备唯一标识** **"uid": "", // (String)** **用户标识**原创 2020-08-31 16:00:28 · 513 阅读 · 0 评论 -
01.02第一篇之项目需求及架构设计
第2 章项目需求及架构设计2.2 项目框架2.2.1 技术选型2.2.2 系统数据流程设计2.2.3 框架版本选型2.2.4 服务器选型2.2.5 集群资源规划设计2)测试集群服务器规划服务名称子服务服务器 hadoop102服务器 hadoop103服务器 hadoop104HDFSNameNode√DataNode√√√SecondaryNameNode√YarnNodeManager√√原创 2020-08-31 15:10:55 · 204 阅读 · 0 评论 -
01.01第一篇之数据仓库概念
原创 2020-08-31 14:48:25 · 105 阅读 · 0 评论 -
00前言
项目名称:大数据技术之离线电商数仓主要技术实现:基于Hadoop,HIVE为基础构建的离线数仓,并赋以可视化,即席查询,集群监控,元数据管理,质量监控等基本功能。数仓架构图如绿色框所示,其中业务数据和用户行为数据由脚本随机生成,以模拟生产环境。声明该项目基于网上公开课程《尚硅谷大数据项目数据仓库,电商数仓V1.2新版》而来。B站链接:https://www.bilibili.com/video/BV1df4y1U79z?p=1感谢尚硅谷教育的无私分享!笔者根据网上的公开资料进行了搜集整原创 2020-08-31 14:33:14 · 139 阅读 · 0 评论