写个数仓吧（5） DWD层

最新推荐文章于 2024-04-20 15:15:00 发布

KujyouRuri

最新推荐文章于 2024-04-20 15:15:00 发布

阅读量190

点赞数

本文链接：https://blog.csdn.net/KujyouRuri/article/details/116402704

版权

本文详细介绍了DWD层的数据解析过程，包括去除ODS层的空值、脏数据和异常值，行转列以及压缩格式转换。讲解了如何创建基础明细表，特别是针对公共字段和事件字段的解析，使用UDF和UDTF函数。同时，展示了搭建各种具体需求明细表的步骤，如商品点击表、商品详情页表等，并提供了相应的数据导入和测试方法。

摘要由CSDN通过智能技术生成

DWD层数据解析

对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式）。

创建基础明细表

明细表用于存储ODS层原始表转换过来的明细数据。
在这里插入图片描述
对于公共字段：输入一个字段，输出一个字段，只需要用UDF即可
对于事件详情：输入一个字段，要拆分成四个字段，需要UDTF。

创建启动日志基础明细表

hive (gmall)> 
drop table if exists dwd_base_start_log;
CREATE EXTERNAL TABLE `dwd_base_start_log`(
`mid_id` string,
`user_id` string, 
`version_code` string, 
`version_name` string, 
`lang` string, 
`source` string, 
`os` string, 
`area` string, 
`model` string,
`brand` string, 
`sdk_version` string, 
`gmail` string, 
`height_width` string, 
`app_time` string, 
`network` string, 
`lng` string, 
`lat` string, 
`event_name` string, 
`event_json` string, 
`server_time` string)
PARTITIONED BY (`dt` string)
stored as  parquet
location '/warehouse/gmall/dwd/dwd_base_start_log/';
其中event_name和event_json用来对应事件名和整个事件。这个地方将原始日志1对多的形式拆分出来了。操作的时候我们需要将原始日志展平，需要用到UDF和UDTF。

2）创建事件日志基础明细表

hive (gmall)> 
drop table if exists dwd_base_event_log;
CREATE EXTERNAL TABLE `dwd_base_event_log`(
`mid_id` string,
`user_id` string, 
`version_code` string, 
`version_name` string, 
`lang` string, 
`source` string, 
`os` string, 
`area` string, 
`model` string,
`brand` string, 
`sdk_version` string, 
`gmail` string, 
`height_width` string, 
`app_time` string, 
`network` string, 
`lng` string, 
`lat` string, 
`event_name` string, 
`event_json` string, 
`server_time` string)
PARTITIONED BY (`dt` string)
stored as  parquet
location '/warehouse/gmall/dwd/dwd_base_event_log/';

UDF公共字段解析函数

在这里插入图片描述
创建一个maven工程：hivefunction
2）创建包名：com.atguigu.udf
3）在pom.xml文件中添加如下内容

<properties>
    <project.build.sourceEncoding>UTF8</project.build.sourceEncoding>
    <hive.version>1.2.1</hive.version>
</properties>

<dependencies>
    <!--添加hive依赖-->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>${hive.version}</version>
    </dependency>
</dependencies>

<build>
    <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>2.3.2</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
            </configuration>
        </plugin>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

java源码：

package com.atguigu.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.json.JSONException;
import org.json.JSONObject;

public class BaseFieldUDF extends UDF {
   

    public String evaluate(String line, String jsonkeysString) {
   
        
        // 0 准备一个sb
        StringBuilder sb = new StringBuilder();   //用于字符串的拼接

        // 1 切割jsonkeys  mid uid vc vn l sr os ar md
        String[] jsonkeys = jsonkeysString.split(",");

        // 2 处理line   服务器时间 | json
        String[] logContents = line.split("\\|");

        // 3 合法性校验
        if (logContents.length != 2 || StringUtils.isBlank(logContents[1])) {
   
            return "";
        }

        // 4 开始处理json
        try {
   
            JSONObject jsonObject = new JSONObject(logContents[1]);

            // 获取cm里面的对象
            JSONObject base = jsonObject.getJSONObject("cm");

            // 循环遍历取值
            for (int i = 0; i < jsonkeys.length; i++) {
   
                String filedName = jsonkeys[i].trim();   //trim用于去空格

                if (base.has(filedName)) {
   
                    sb.append(base.getString(filedName)).append("\t");
                } else {
   
                    sb.append("").append("\t");
                }
            }

            sb.append(jsonObject.getString("et")).append("\t");
            sb.append(logContents[0]).append("\t");
        } catch (JSONException e) {
   
            e.printStackTrace();
        }

        return sb.toString();
    }

｝

自定义UDTF函数（解析具体事件字段）

在这里插入图片描述
EventJsonUDTF

package com.atguigu.udtf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector

最低0.47元/天解锁文章

KujyouRuri

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
写个数仓吧（5） DWD层

DWD层数据解析对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式）。创建基础明细表明细表用于存储ODS层原始表转换过来的明细数据。对于公共字段：输入一个字段，输出一个字段，只需要用UDF即可对于事件详情：输入一个字段，要拆分成四个字段，需要UDTF。创建启动日志基础明细表hive (gmall)> drop table if exists dwd_base_start_log;CREATE EXTERNAL TABLE `dwd_base
复制链接

扫一扫