- 博客(76)
- 资源 (43)
- 收藏
- 关注
原创 (3)Flume的具体配置
2)Flume的具体配置如下:(1)在CM管理页面hadoop102上flume的配置中找到代理名称改为a1a1102 103a1.sources=r1a1.channels=c1 c2a1.sinks=k1 k2configure sourcea1.sources.r1.type = TAILDIRa1.sources.r1.positionFile = /opt/module...
2020-04-09 16:35:19 257
原创 (1)cdh
Hadoop安装文档CentOS系统配置centos7关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service关闭selinuxsetenforce 0vim /etc/selinux/configSELINUX=disabledcentos7配置主机名临时修改主机名hostname ma...
2020-04-09 16:21:02 242
原创 9(19)9.5 拉链表制作过程
9.5 拉链表制作过程9.5.1 步骤0:初始化拉链表(首次独立执行)1)生成10条原始订单数据CALL init_data(‘2019-02-13’,10,5,10,TRUE);[atguigu@hadoop102 bin]$ sqoop_import.sh all 2019-02-13[atguigu@hadoop102 bin]$ ods_db.sh 2019-02-13[atg...
2020-04-09 15:51:09 432
原创 9(16)GMV指标获取的全调度流程16
8.2GMV指标获取的全调度流程1)生成数据CALL init_data(‘2019-02-12’,300,200,300,FALSE);2)编写Azkaban程序运行job(1)import.job文件type=commanddo_date=${dt}command=/home/hadoop/bin/sqoop_import.sh all dodate(2)ods.job文件typ...
2020-04-09 15:39:39 245
原创 9(14)7.3Sqoop导出脚本14
7.3Sqoop导出脚本1)编写Sqoop导出脚本在/home/atguigu/bin目录下创建脚本sqoop_export.sh[atguigu@hadoop102 bin]$ vim sqoop_export.sh在脚本中填写如下内容#!/bin/bashdb_name=gmallexport_data() {/opt/module/sqoop/bin/sqoop export...
2020-04-09 15:38:18 161
原创 9(13)数据可视化13
第7章数据可视化7.1在MySQL中创建表7.1.1每日活跃统计1)在MySQL中创建ads_uv_count表DROP TABLE IF EXISTS ads_uv_count;CREATE TABLE ads_uv_count (dt varchar(255) DEFAULT NULL COMMENT ‘统计日期’,day_count bigint(200) DEFAULT N...
2020-04-09 15:35:47 169
原创 9(12)6.3 ADS层12
6.3 ADS层6.3.1 建表语句hive (gmall)>drop table ads_sale_tm_category1_stat_mn;create external table ads_sale_tm_category1_stat_mn(tm_id string comment ‘品牌id’,category1_id string comment '1级品类id ',...
2020-04-09 15:34:58 174
原创 9(11)第6章需求三:品牌复购率11
第6章需求三:品牌复购率6.2 DWS层6.2.1 用户购买商品明细表(宽表)hive (gmall)>drop table if exists dws_sale_detail_daycount;create external table dws_sale_detail_daycount( user_id string comment ‘用户 id’,sku_id string...
2020-04-09 15:34:15 414
原创 9(10)第5章需求二:转化率及漏斗分析10
第5章需求二:转化率及漏斗分析5.2ADS层之新增用户占日活跃用户比率5.2.1 建表语句hive (gmall)>drop table if exists ads_user_convert_day;create external table ads_user_convert_day(dt string COMMENT ‘统计日期’,uv_m_count bigint COM...
2020-04-09 15:31:51 297
原创 (9)第4章需求一:GMV成交总额 4.1 ADS层9
第4章需求一:GMV成交总额4.1 ADS层4.1.2建表语句hive (gmall)>drop table if exists ads_gmv_sum_day;create external table ads_gmv_sum_day(dt string COMMENT ‘统计日期’,gmv_count bigint COMMENT ‘当日gmv订单个数’,gmv_amou...
2020-04-09 15:30:40 225
原创 (8)用户行为数据宽表导入脚本8
3.5.3用户行为数据宽表导入脚本1)在/home/atguigu/bin目录下创建脚本dws_db_wide.sh[atguigu@hadoop102 bin]$ vim dws_db_wide.sh在脚本中填写如下内容#!/bin/bash定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日期...
2020-04-09 15:13:20 220
原创 (7)3.5DWS层之用户行为宽表7
3.5DWS层之用户行为宽表3.5.1 创建用户行为宽表hive (gmall)>drop table if exists dws_user_action;create external table dws_user_action(user_id string comment ‘用户 id’,order_count bigint co...
2020-04-09 15:11:18 941
原创 (6)3.4.6DWD层数据导入脚本6
3.4.6DWD层数据导入脚本1)在/home/atguigu/bin目录下创建脚本dwd_db.sh[atguigu@hadoop102 bin]$ vim dwd_db.sh在脚本中填写如下内容#!/bin/bash定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if...
2020-04-09 15:10:29 290
原创 (5)3.4DWD层5
3.4DWD层对ODS层数据进行判空过滤。对商品分类表进行维度退化(降维)。3.4.1 创建订单表hive (gmall)>drop table if exists dwd_order_info;create external table dwd_order_info (id string COMMENT ‘’,total_amount decimal(10,2) COMMEN...
2020-04-09 15:09:50 371
原创 (4)3.3.9ODS层数据导入脚本4
3.3.9ODS层数据导入脚本1)在/home/atguigu/bin目录下创建脚本ods_db.sh[atguigu@hadoop102 bin]$ vim ods_db.sh在脚本中填写如下内容#!/bin/bashAPP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n “$1...
2020-04-09 15:09:06 262
原创 (3)ODS层3
3.3ODS层完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。3.3.1创建订单表3.3.1创建订单表hive (gmall)>drop table if exists ods_order_info;create external table ods_order_info (id string COMMENT ‘订单编号’,total_amount decimal...
2020-04-09 15:08:20 270
原创 (2.1)sqoop安装2.1
全量导入例如:bin/sqoop import \ (输入命令)–connect jdbc:mysql://bigdata.ibeifeng.com:3306/testdb \ (指定连接jdbc端口和数据库名称)–username root \ (数据库用户名)–password root123 \ (密码 若不适用明文指定数据库密码 则可以用-P)–table user \ (指定数...
2020-04-09 15:07:18 81
原创 (2)Sqoop安装2.0
第3章 Sqoop安装3.1 下载并解压下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中解压sqoop安装包到指定目录,如:$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.g...
2020-04-09 15:06:33 456
原创 9(23)连续三天活跃用户数23
第14章 需求八:最近七天内连续三天活跃用户数说明:最近7天内连续3天活跃用户数14.1 DWS层使用日活明细表dws_uv_detail_day作为DWS层数据14.2 ADS层1)建表语句hive (gmall)>drop table if exists ads_continuity_uv_count;create external table ads_continuit...
2020-04-09 15:03:34 803
原创 9(22)最近连续3周活跃用户数22
第13章 需求七:最近连续3周活跃用户数最近3周连续活跃的用户:通常是周一对前3周的数据做统计,该数据一周计算一次。13.1 DWS层使用周活明细表dws_uv_detail_wk作为DWS层数据13.2 ADS层1)建表语句hive (gmall)>drop table if exists ads_continuity_wk_count;create external ta...
2020-04-09 15:02:52 619
原创 9(21)流失用户数21
第12章 需求六:流失用户数流失用户:最近7天未登录我们称之为流失用户12.1 DWS层使用日活明细表dws_uv_detail_day作为DWS层数据12.2 ADS层1)建表语句hive (gmall)>drop table if exists ads_wastage_count;create external table ads_wastage_count(dt st...
2020-04-09 15:02:07 252
原创 9(20)本周回流用户数20
第11章 需求五:本周回流用户数本周回流=本周活跃-本周新增-上周活跃11.1 DWS层使用日活明细表dws_uv_detail_day作为DWS层数据11.2 ADS层1)建表语句hive (gmall)>drop table if exists ads_back_count;create external table ads_back_count(dt string C...
2020-04-09 14:59:34 428
原创 9(19)沉默用户数19
第10章 需求四:沉默用户数沉默用户:指的是只在安装当天启动过,且启动时间是在一周前10.1 DWS层使用日活明细表dws_uv_detail_day作为DWS层数据10.2 ADS层1)建表语句hive (gmall)>drop table if exists ads_slient_count;create external table ads_slient_count(...
2020-04-09 14:58:46 445
原创 9(18)第9章 新数据准备18
第9章 新数据准备为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。1)2019-02-12数据准备(1)修改日志时间[atguigu@hadoop102 ~]$ dt.sh 2019-02-12(2)启动集群[atguigu@hadoop102 ~]$ cluster.sh st...
2020-04-09 14:55:04 85
原创 9(17)8.3 ADS层17
8.3 ADS层8.3.1 留存用户数1)建表语句hive (gmall)>drop table if exists ads_user_retention_day_count;create external table ads_user_retention_day_count(create_date string comment ‘设备新增日期’,retention_day ...
2020-04-09 14:54:23 149
原创 9(16)第8章 需求三:用户留存主题16
第8章 需求三:用户留存主题8.1.2 需求描述8.2 DWS层8.2.1 DWS层(每日留存用户明细表)1)建表语句hive (gmall)>drop table if exists dws_user_retention_day;create external table dws_user_retention_day(mid_id string COMMENT ‘设备唯一...
2020-04-09 14:51:47 108
原创 9(15)7.2 ADS层(每日新增设备表)15
7.2 ADS层(每日新增设备表)1)建表语句hive (gmall)>drop table if exists ads_user_retention_day_rate;create external table ads_new_mid_count(create_date string comment ‘创建时间’ ,new_mid_count BIGINT com...
2020-04-09 14:51:04 240
原创 9(14)7.1 DWS层(每日新增设备明细表)14
第7章 需求二:用户新增主题7.1 DWS层(每日新增设备明细表)1)建表语句hive (gmall)>drop table if exists dws_new_mid_day;create external table dws_new_mid_day(mid_id string COMMENT ‘设备唯一标识’,user_id string COMMENT ‘用户标识’,...
2020-04-09 14:49:01 411 1
原创 9(13)6.2.2 ADS层加载数据脚本13
6.2.2 ADS层加载数据脚本1)在hadoop102的/home/atguigu/bin目录下创建脚本[atguigu@hadoop102 bin]$ vim ads_uv_log.sh在脚本中编写如下内容#!/bin/bash定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日期取当前时间的...
2020-04-09 14:47:04 154
原创 9(12)6.2 ADS层12
6.2 ADS层目标:当日、当周、当月活跃设备数6.2.1 活跃设备数drop table if exists ads_uv_count;create external table ads_uv_count(dt string COMMENT ‘统计日期’,day_count bigint COMMENT ‘当日用户数量’,wk_count bigint COMMENT ‘当周用户...
2020-04-09 14:46:21 120
原创 9(11)6.1.4 DWS层加载数据脚本11
1)在hadoop102的/home/atguigu/bin目录下创建脚本[atguigu@hadoop102 bin]$ vim dws_uv_log.sh在脚本中编写如下内容#!/bin/bash定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n “$1” ...
2020-04-09 14:43:06 159
原创 9(10)6.1 DWS层10
6.1 DWS层目标:统计当日、当周、当月活动的每个设备明细6.1.1 每日活跃设备明细1)建表语句hive (gmall)>drop table if exists dws_uv_detail_day;create external table dws_uv_detail_day(mid_id string COMMENT ‘设备唯一标识’,user_id string ...
2020-04-09 14:42:14 169
原创 (9)4.3.12 DWD层事件表加载数据脚本9
4.3.12 DWD层事件表加载数据脚本1)在hadoop102的/home/atguigu/bin目录下创建脚本[atguigu@hadoop102 bin]$ vim dwd_event_log.sh在脚本中编写如下内容#!/bin/bash定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive如果是输入的日期按照取输入日期;如果没输入日...
2020-04-09 14:39:34 189
原创 (8)4.3 DWD层事件表获取8
4.3.1 商品点击表1)建表语句hive (gmall)>drop table if exists dwd_display_log;CREATE EXTERNAL TABLE dwd_display_log(mid_id string,user_id string,version_code string,version_name string,lang string,s...
2020-04-09 14:36:42 131
原创 (7)数仓搭建之DWD层事件表7
[hadoop@hadoop102 /opt/soft1]$ll /opt/module/hive/ |grep hivefunction-1.0-SNAPSHOT.jar-rw-r–r--. 1 hadoop hadoop 5528 Feb 10 02:19 hivefunction-1.0-SNAPSHOT.jarhive (gmall)> add jar /opt/module/h...
2020-04-09 14:33:55 564
原创 (6)数仓搭建之DWD层启动表6
数仓搭建之DWD层4.1 DWD层启动表数据解析4.1.1 创建启动表1)建表语句hive (gmall)>drop table if exists dwd_start_log;CREATE EXTERNAL TABLE dwd_start_log(mid_id string,user_id string,version_code string,version_name ...
2020-04-09 14:31:09 314
原创 (5)数仓搭建之ODS层5
3.1 创建数据库1)创建gmall数据库hive (default)> create database gmall;说明:如果数据库存在且有数据,需要强制删除时执行:drop database gmall cascade;2)使用gmall数据库hive (default)> use gmall;3.2 ODS层原始数据层,存放原始数据,直接加载原始日志、数据,数据保持...
2020-04-09 14:28:10 428
原创 (4.1)数仓搭建之ODS层报错报错4.1
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don’t support retries at the client level.)(1)create ...
2020-04-09 14:25:58 508
原创 (4)数仓搭建之ODS层4
create database hive default character set latin1;grant all on . to ‘hive’@’%’ identified by ‘000000’;flush privileges;3.1 创建数据库1)创建gmall数据库hive (default)> create database gmall;说明:如果数据库存在且有数...
2020-04-09 14:23:09 184
原创 (3)Tez3
2.2.1 安装包准备1)下载tez的依赖包:http://tez.apache.org2)拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/module目录[atguigu@hadoop102 module]$ lsapache-tez-0.9.1-bin.tar.gz3)解压缩apache-tez-0.9.1-bin.tar.gz[atgui...
2020-04-09 14:20:25 153
Notepad++.7.6.1.bin.x64And32.zip
2019-11-10
flume和logstash.zip
2019-07-07
flume和logstash.zip
2019-07-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人