自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 02.03第二篇之数据环境准备

第3 章数据环境准备3.1 安装Hive2.31)上传apache-hive-2.3.0-bin.tar.gz 到/opt/software 目录下,并解压到/opt/module[atguigu@hadoop102 software]$ tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/module/2)修改apache-hive-2.3.6-bin 名称为hive[atguigu@hadoop102 module]$ mv apache-hive-

2020-09-07 22:47:12 210

原创 02.02第二篇之业务数据采集模块

第2 章业务数据采集模块2.1 MySQL 安装2.1.1 安装包准备1)查看MySQL 是否安装,如果安装了,卸载MySQL(1)查看[root@hadoop102 桌面]# rpm -qa|grep mysql mysql-libs-5.1.73-7.el6.x86_64(2)卸载[root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_642)解压mysql-libs.zip 文件到当前目录[root@

2020-09-07 22:36:33 843 1

原创 02.01第二篇之电商业务简介

第1章 电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。例如:iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。SPU表示一类商品。好处就是:可以共用商品图片,海报、销售属性等。1

2020-09-07 22:09:25 551

原创 关于样例类转json格式存入redis以及redis中查看会增加多余转义符(斜杠)的问题

【样例类转json格式并存入Redis】 def saveToRedis(client: Jedis, key:String, value: AnyRef ): Unit ={ //样例类不能用fastjson了, import org.json4s.DefaultFormats val json: String = Serialization.write(value)(DefaultFormats) client.set(key,json)原始json数据{"id"

2020-09-01 00:23:09 3687 1

原创 01.05第一篇之总结

第5 章总结5.1 数仓概念总结1)数据仓库的输入数据源和输出系统分别是什么?输入系统:埋点产生的用户行为数据、JavaEE 后台产生的业务数据。输出系统:报表系统、用户画像系统、推荐系统5.2 项目需求及架构总结5.2.1 集群规模计算5.2.2 框架版本选型1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)2)CDH:国内使用最多的版本,但CM 不开源,但其实对中、小公司使用来说没有影响。离线3)HDP:开源,可以进行

2020-08-31 17:55:52 193

原创 01.04第一篇之集群搭建&数据采集模块

第4 章集群搭建&数据采集模块4.0 虚拟机准备4.0.1 虚拟机内存分配1)从hadoop100的快照中克隆出3台虚拟机,并分配好内存建议内存不低于4G,尤其是hadoop102,作为主机,后续可能要8G才能较顺利运行机子建议内存Hadoop1028G作为主节点Hadoop1032GHadoop1042G2)原始虚拟机的已经创建好了root和user的账号&密码如下:root: xxxxxxxxatguigu: 12345

2020-08-31 17:29:37 797 1

原创 01.03第一篇之数据生成模块

第3 章数据生成模块3.1 埋点数据基本格式Ø 公共字段:基本所有安卓手机都包含的字段Ø 业务字段:埋点上报的字段,有具体的业务类型下面就是一个示例,表示业务字段的上传。下面就是一个示例,表示业务字段的上传。{"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段​ **"mid": "", // (String)** **设备唯一标识**​ **"uid": "", // (String)** **用户标识**

2020-08-31 16:00:28 510

原创 01.02第一篇之项目需求及架构设计

第2 章项目需求及架构设计2.2 项目框架2.2.1 技术选型2.2.2 系统数据流程设计2.2.3 框架版本选型2.2.4 服务器选型2.2.5 集群资源规划设计2)测试集群服务器规划服务名称子服务服务器 hadoop102服务器 hadoop103服务器 hadoop104HDFSNameNode√DataNode√√√SecondaryNameNode√YarnNodeManager√√

2020-08-31 15:10:55 204

原创 01.01第一篇之数据仓库概念

2020-08-31 14:48:25 105

原创 00前言

项目名称:大数据技术之离线电商数仓主要技术实现:基于Hadoop,HIVE为基础构建的离线数仓,并赋以可视化,即席查询,集群监控,元数据管理,质量监控等基本功能。数仓架构图如绿色框所示,其中业务数据和用户行为数据由脚本随机生成,以模拟生产环境。声明该项目基于网上公开课程《尚硅谷大数据项目数据仓库,电商数仓V1.2新版》而来。B站链接:https://www.bilibili.com/video/BV1df4y1U79z?p=1感谢尚硅谷教育的无私分享!笔者根据网上的公开资料进行了搜集整

2020-08-31 14:33:14 139

原创 Redis 批量删除带有特定字段的keys

【问题】如何快速的删除Redis中的含有某个特定字段的keys?例如,一键删除如下所有以“order_info”开头的keys127.0.0.1:6379> keys * 1) "order_info:5047" 2) "order_info:4989" 3) "order_info:5030" 4) "order_info:4985" 5) "order_info:4999" 6) "order_info:5023" 7) "order_info:5024" 8) "order

2020-08-20 22:18:23 1134

原创 vim编辑器误操作卡死问题

【问题】用vim写完文件后,下意识的按了 Ctrl+s ,结果界面卡死了。原来但对vim编辑器,该组合键是锁定编辑器的快捷键,使用后会使vim编辑器处于锁定状态【解决方案】使用ctrl+q即可退出vim锁定状态...

2020-08-14 12:34:59 208

原创 【解决】idea Maven已经成功导入依赖,但在程序中无法找到,无法import相关jar包

【问题】在使用alibaba的fastjson时, 已经在Maven中配置好pom,maven导入成功,本次仓库也已经下载,也能在library里看到相关的jar包了,但是代码引用时发现导入不了这个包。。。本地库也已经下载完毕了尝试过reimport maven的配置,还是找不到。导包飘红。。。【解决】1.把本地仓库的fastjson包删除2.把pom文件中的fastjson配置删除,reimport一下。3.然后重新把fastjson的配置在pom中加上,reimport一下。4.

2020-08-12 14:17:17 7604 7

原创 解决:IDEA Cannot resolve directory {JAVA_HOME}

IDEA Cannot resolve directory ‘$’{‘JAVA_HOME}’用idea新建一个maven项目,演示hdfs客户端操作。导入依赖之后,发现有一处标红:提示错误信息:Cannot resolve directory ‘$’{‘JAVA_HOME}’<dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId>

2020-06-23 19:33:55 5275

原创 Tensorflow 2.0 GPU 版安装教程

Tensorflow 2.0 GPU 版安装引言CUDA 软件安装cuDNN 神经网络加速库安装环境变量 Path 配置TensorFlow 安装引言目前的深度学习框架大都基于NVIDIA 的GPU 显卡进行加速运算,因此需要安装NVIDIA 提供的GPU 加速库CUDA 程序。CUDA 的安装分为CUDA 软件的安装、cuDNN 深度神经网络加速库的安装和环境变量配置三个步骤。CUDA ...

2019-12-24 23:11:32 1801

大数据项目之电商数仓-代码

大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码 大数据项目之电商数仓-代码

2020-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除