离线数据仓库
文章平均质量分 51
超级通勤者
28岁的大龄大数据码农,持续更新大数据相关知识。
展开
-
Hive 优化案例1: Hive 压缩
MapReduce 支持的压缩编码 压缩格式 是否可切分 DEFAULT 否 Gzip 否 bzip2 是 LZO 是 Snappy 否 压缩参数配置 输入端压缩 io.compression.codecs org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2C原创 2021-06-07 14:02:42 · 150 阅读 · 0 评论 -
Hive错误排查经验
2021-06-02 错误信息1 日志排查 解决方案 (1)在hadoop下的etc/hadoop中的配置文件hadoop-env.sh中修改如下配置: export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS" (2)在hive下的bin目录下的配置文件hive-config.sh中修改如下配置: export HADOOP_HEAPSIZE=${HADOOP_HEAPSIZE:-2048} ...原创 2021-06-02 17:04:00 · 270 阅读 · 0 评论 -
拉链表总结
2021.1.1 的用户全量表: 用户 ID 姓名 1 张三 2 李四 3 王五 2021.1.2 的用户全量表 用户 ID 姓名 1 张三 2 李小四 3 王五 4 赵六 5 田七 一、得到 2021.1.1 的初始化拉链表: 用户 ID 姓名 开始时间 结束时间 1 张三 2019-01-01 9999-99-99 2 李四 2019-01-01 9999-99-99 3 王五 2019-01-01 9999-99-原创 2021-05-25 17:05:54 · 165 阅读 · 0 评论 -
ETL技术总结
一、ETL 清洗规则 1、解析数据 在 Hive 中一般使用 UDTF 函数 2、核心字段解析 (1)核心字段为空 select ... from ... where xxx is not null; (2)核心字段有错误 例: 订单金额 < 0 的数据要过滤掉 select ... from ... where order_amount >= 0; 3. 重复数据 一般有两种方式: (1)group by (2)使用 Hive 的开窗函数,取窗口的第1条 4. 超时信息 二、E原创 2021-05-25 16:15:11 · 493 阅读 · 0 评论 -
dwd层知识点总结(2021-05-18更新)
面试知识点1: 维度建模的4大步骤 1、选择业务过程 2、声明粒度 3、确定维度 4、确定事实 1.1 选择业务过程 原则: (1)根据统计的需求指标来选择 (2)中小型公司: 全部业务过程 (3)中大型公司: 选择业务过程,不需要把所有表的数据导过来 例: 用户表 -> 购物车表、订单表(优惠券表)-> 订单详情表 -> 支付表(退单表)-> 评价表、收藏表 1.2 声明粒度 在 dwd 层不做聚合操作,选择最小粒度进行分析。 表格 粒度 案例 1 订单表 1 次原创 2021-05-18 16:18:17 · 816 阅读 · 0 评论 -
大数据技能01: Sqoop
MySQL -> HDFS 将 MySQL 中 user_info 表格数据导入到 HDFS 的 /test 路径下 1、MySQL 参数 序号 参数 参数值 1 –connect jdbc:mysql://hadoop102:3306/gmall 2 –username root 3 –password 2、HDFS 参数 序号 参数 参数值 含义 1 –target-dir /test HDFS路径 2 –delete-target-dir 路径原创 2021-05-17 14:56:00 · 101 阅读 · 0 评论 -
Shell脚本
1、第一行写#!/bin/bash #!/bin/bash 2、定义变量 2.1 定义 Hive 路径 hive = /opt/module/hive/bin/hive 2.2 定义数据库名称 APP = gmall 3、获取时间 默认按照 T - 1 的数据跑脚本 if [ -n "$1" ] then do_date = $1 else do_date = `date -d '-1 day' + %F` fi 4、定义sql (1)时间 -> $do_date (2)数据库 ->原创 2021-05-12 17:23:10 · 77 阅读 · 0 评论 -
ods层知识点总结
日志表 ods_log 1、原始数据 { “common”: { }, “start”: { }, “err”: { }, “ts”: { } } 2、如果要创建的表已经存在,先删除该表 在这里插入代码片 3、创建一张外部表原创 2021-05-12 17:14:17 · 771 阅读 · 0 评论