自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Hive 优化案例1: Hive 压缩

MapReduce 支持的压缩编码压缩格式是否可切分DEFAULT否Gzip否bzip2是LZO是Snappy否压缩参数配置输入端压缩io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2C

2021-06-07 14:02:42 179

原创 Atlas 2.0.0 安装

一、安装前环境准备软件版本1JDK82Hadoop 2.7.2 / Hadoop 3.1.33Kafka 0.11.0.24HBase 1.3.15Solr 5.2.16Hive 2.3.1 / Hive 3.1.27Azkaban 2.5.08Atlas 0.8.4二、安装 solr-5.2.1tar -zxvf solr-5.2.1.tgz -C /opt/module/mv solr-5.2.1/ solr进

2021-06-02 17:56:28 755

原创 Hive错误排查经验

2021-06-02错误信息1日志排查解决方案(1)在hadoop下的etc/hadoop中的配置文件hadoop-env.sh中修改如下配置:export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS"(2)在hive下的bin目录下的配置文件hive-config.sh中修改如下配置:export HADOOP_HEAPSIZE=${HADOOP_HEAPSIZE:-2048}...

2021-06-02 17:04:00 305

原创 拉链表总结

2021.1.1 的用户全量表:用户 ID姓名1张三2李四3王五2021.1.2 的用户全量表用户 ID姓名1张三2李小四3王五4赵六5田七一、得到 2021.1.1 的初始化拉链表:用户 ID姓名开始时间结束时间1张三2019-01-019999-99-992李四2019-01-019999-99-993王五2019-01-019999-99-

2021-05-25 17:05:54 174

原创 ETL技术总结

一、ETL 清洗规则1、解析数据在 Hive 中一般使用 UDTF 函数2、核心字段解析(1)核心字段为空select ...from ...where xxx is not null;(2)核心字段有错误例: 订单金额 < 0 的数据要过滤掉select ...from ...where order_amount >= 0;3. 重复数据一般有两种方式:(1)group by(2)使用 Hive 的开窗函数,取窗口的第1条4. 超时信息二、E

2021-05-25 16:15:11 542

原创 银行业务SQL常见函数

coalesce函数SELECT coalesce(exp1, exp2, ...)FROM xxx;当 exp1 为 null 时,计算 exp2; 当 exp2 为 null 时,计算 exp3…nvl函数SELECT nvl(exp1, exp2)FROM xxx;当 exp1 为 null 时,返回 exp2

2021-05-20 10:06:43 1276

原创 Hive的时间函数

时间戳:s10位ms13位查看函数desc function xxx;日期 -> 时间戳unix_timestamp(“2020-10-28”, ‘yyyy-MM-dd’);Hive只认识以 “-” 划分的日期时间戳 -> 日期from_unixtime(1603843200);2020-10-28 00:00:00年、月、日select year(“2020-10-28 00:00:00”);select month(“

2021-05-19 12:00:02 101

原创 HQL打卡第2题

HQL打卡第2题需求1. 表格数据2. 最终结果3. 最终结果字段解释HQL 书写1. 计算出每一行的 DIFF_TS2. 当 DIFF_TS > 0 的时候,赋值为 1,否则赋值为 03. 对于每个用户,GROUP_ID 的编号是从第一行到该行所有标号为 1 的个数加 1最终 HQL 总结需求1. 表格数据user_idevent_tsA1566300034A1566300044A1566300050A1566300150A15663001

2021-05-19 11:59:04 94

原创 Spark 面试总结(2021-05-24更新)

知识点1: Spark 作业提交流程1、Spark 客户端执行脚本提交任务,启动 SparkSubmit 的 JVM 进程。2、Spark 客户端向 Yarn 客户端进行通信,Yarn 客户端收到指令后:(1)ResourceManager 会指定一个 NodeManager 开启 ApplicationMaster 进程。(2)在 ApplicationMaster 进程里面开启 Driver 线程,执行用户的作业。(3)ApplicationMaster 向 ResourceManager 注

2021-05-18 17:55:54 305

原创 dwd层知识点总结(2021-05-18更新)

面试知识点1: 维度建模的4大步骤1、选择业务过程2、声明粒度3、确定维度4、确定事实1.1 选择业务过程原则:(1)根据统计的需求指标来选择(2)中小型公司: 全部业务过程(3)中大型公司: 选择业务过程,不需要把所有表的数据导过来例: 用户表 -> 购物车表、订单表(优惠券表)-> 订单详情表 -> 支付表(退单表)-> 评价表、收藏表1.2 声明粒度在 dwd 层不做聚合操作,选择最小粒度进行分析。表格粒度案例1订单表1 次

2021-05-18 16:18:17 853

原创 大数据技能01: Sqoop

MySQL -> HDFS将 MySQL 中 user_info 表格数据导入到 HDFS 的 /test 路径下1、MySQL 参数序号参数参数值1–connectjdbc:mysql://hadoop102:3306/gmall2–usernameroot3–password2、HDFS 参数序号参数参数值含义1–target-dir/testHDFS路径2–delete-target-dir路径

2021-05-17 14:56:00 112

原创 Hadoop面试总结(持续更新)

(2021-04-20)Hadoop 常用端口号Hadoop 2.xHadoop 3.xHDFS500709870Yarn80888088HistoryServer1988819888

2021-05-13 14:38:02 71

原创 Hive面试总结(持续更新)

(2021-05-12)内部表和外部表的区别应用场景是否删除元数据是否删除原始数据内部表临时使用的表是是外部表绝大多数表是否

2021-05-12 17:36:57 106

原创 Shell脚本

1、第一行写#!/bin/bash#!/bin/bash2、定义变量2.1 定义 Hive 路径hive = /opt/module/hive/bin/hive2.2 定义数据库名称APP = gmall3、获取时间默认按照 T - 1 的数据跑脚本if [ -n "$1" ]then do_date = $1else do_date = `date -d '-1 day' + %F`fi4、定义sql(1)时间 -> $do_date(2)数据库 ->

2021-05-12 17:23:10 84

原创 ods层知识点总结

日志表 ods_log1、原始数据{“common”: { },“start”: { },“err”: { },“ts”: { }}2、如果要创建的表已经存在,先删除该表在这里插入代码片3、创建一张外部表

2021-05-12 17:14:17 785

原创 HQL打卡第1题: 统计每个员工的最高连续打卡次数

HQL每日打卡第1题需求1. 创建表格语句2. 表格数据3. 字段解释HQL书写1. 筛选出用户打卡的所有记录,即is_flag = 1 的所有记录2. 使用 Hive 的 rank() 函数,对每个用户 uid 的时间 tdate 分别进行排序3. 使用 date_sub(tdate, rk) 函数计算每一行 tdate 的前 rk 天的日期4. 对于同一个 uid, 相同的 sub_date_rk 出现的次数即为连续签到的次数5. 对于同一个 uid,会有多条相同sub_date_rk 次数的记录,要想

2021-05-08 15:13:04 441

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除