数据清洗(必会)

# 数据清洗

***

## 一、背景

```sql


-- 1. 清洗的原因:


     在数仓项目中,数据经常不是我们想要的,数据可能存在不完整的情况,或有一些null,或者格式不对,那么我们需要对数据进行清洗。


-- 2. 本案例的事件:


   --用户数据:
          '一条数据'
           barelypolitical    151    5106
           '每个字段代表的含义'
           uploader:barelypolitical
        videos: 151
        friends: 5106
   --viedo数据:
          '一条数据':
       LKh7zAJ4nwo    TheReceptionist    653    Entertainment    424    13021    4.34    1305    744    DjdA-5oKYFQ    NxTDlnOuybo    
       c-8VuICzXtU    DH56yrIO5nI        
       '每个字段代表的含义':
       'videoId':LKh7zAJ4nwo
       'uploader':TheReceptionist
       'age':653
       'category':People & Blogs   --(Array<String>)
       'length':424
       'views':13021
       'rate':4.34
       'Ratings':1305
       'conments':744
       'relatedId':DjdA-5oKYFQ    NxTDlnOuybo    c-8VuICzXtU    DH56yrIO5nI     -- 相关视频id(Array<String>)


-- 3.  我们需要做的清洗工作是:


       1. 格式转换成统一的格式
          视频类别的分隔符和相关视频的id两个数据格式进行处理。
       2. 进行一些数据处理,数据格式不完整的不要。
```

| 字段      | 备注                        | 详细描述               |
| --------- | --------------------------- | ---------------------- |
| videoId   | 视频唯一id(String)        | 11位字符串             |
| uploader  | 视频上传者(String)        | 上传视频的用户名String |
| age       | 视频年龄(int)             | 视频在平台上的整数天   |
| category  | 视频类别(Array<String>)   | 上传视频指定的视频分类 |
| length    | 视频长度(Int)             | 整形数字标识的视频长度 |
| views     | 观看次数(Int)             | 视频被浏览的次数       |
| rate      | 视频评分(Double)          | 满分5分                |
| Ratings   | 流量(Int)                 | 视频的流量,整型数字   |
| conments  | 评论数(Int)               | 一个视频的整数评论数   |
| relatedId | 相关视频id(Array<String>) | 相关视频的id,最多20个 |

| ***\*字段\**** | ***\*备注\**** | ***\*字段类型\**** |
| -------------- | -------------- | ------------------ |
| uploader       | 上传者用户名   | string             |
| videos         | 上传视频数     | int                |
| friends        | 朋友数量       | int                |

## 二、数据清洗思想

```sql
-- 1. 使用MR对数据进行清洗,由于不需要聚合,那么只需要map阶段就可以了
-- 2. 清洗的规则:
      a、 数据长度小于9的不要
      b、 将数据中的视频类别中间的空格去掉   People & Blogs
      c、 将数据中的关联视频id通过&符号拼接
```

## 三、代码实现

### 3.0 准备工作

1. 添加依赖

```xml
<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-slf4j-impl</artifactId>
            <version>2.12.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
    </dependencies>
```

2. 在resource目录下创建一个log4j2.xml文件,并添加如下配置内容

```xml
<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
<Appenders>
<!-- 类型名为Console,名称为必须属性 -->
<Appender type="Console" name="STDOUT">
<!-- 布局为PatternLayout的方式,
输出样式为[INFO] [2018-01-22 17:34:01][org.test.Console]I'm here -->
<Layout type="PatternLayout"
pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
</Appender>

</Appenders>

<Loggers>
<!-- 可加性为false -->
<Logger name="test" level="info" additivity="false">
<AppenderRef ref="STDOUT" />
</Logger>

<!-- root loggerConfig设置 -->
<Root level="info">
<AppenderRef ref="STDOUT" />
</Root>
</Loggers>

</Configuration>
```

### 3.1 创建一个工具类

```java
/**
 * @author lianzhipeng
 * @Description
 * @create 2020-07-20 2:21:30
 */

public class ETLUtils {

    /**
     * 数据清洗方法
     */
    public static  String  etlData(String srcData){
        StringBuffer resultData = new StringBuffer();
        //1. 先将数据通过\t 切割
        String[] datas = srcData.split("\t");
        /**
         *  LKh7zAJ4nwo
         *  TheReceptionist
         *  653
         *  People & Blogs
         *  424
         *  13021
         *  4.34
         *  1305
         *  744
         *  DjdA-5oKYFQ    NxTDlnOuybo    c-8VuICzXtU    DH56yrIO5nI

         */
        //2. 判断长度是否小于9
        if(datas.length <9){
            return null ;
        }
        //3. 将数据中的视频类别的空格去掉
        datas[3]=datas[3].replaceAll(" ","");
        //4. 将数据中的关联视频id通过&拼接
        for (int i = 0; i < datas.length; i++) {
            if(i < 9){
                //4.1 没有关联视频的情况
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("\t");
                }
            }else{
                //4.2 有关联视频的情况
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("&");
                }
            }
        }
        return resultData.toString();
    }
}


```

### 3.2 创建mapper类

```java
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


/**
 * @author lianzhipeng
 * @Description
 * @create 2020-07-20 2:21:42
 */

public class ETLMapper extends Mapper<LongWritable, Text, Text, NullWritable> {


    private Text k = new Text();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //获取一行
        String line = value.toString();
        //清洗
        String resultData = ETLUtils.etlData(line);

        if(resultData != null) {
            //写出
            k.set(resultData);
            context.write(k,NullWritable.get());
        }
    }
}

```

### 3.3 创建driver类

```java
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * @author lianzhipeng
 * @Description
 * @create 2020-07-20 2:21:53
 */

public class ETLDriver  {
    public static void main(String[] args) throws Exception {
        // 创建一个配置文件的对象
        Configuration conf = new Configuration();
        Job job  = Job.getInstance(conf);
        // 设定驱动类
        job.setJarByClass(ETLDriver.class);
        // 设置map类
        job.setMapperClass(ETLMapper.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.waitForCompletion(true);
    }
}

```

## 四、代码打包

将ETL程序打包为etl.jar 并上传到Linux的 /opt/module/hive/datas 目录下

  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析师在进行数据分析之前,常常需要进行数据预处理以确保数据的质量和准确性。下面是一些数据分析师必备的数据预处理技术: 1. 数据清洗:清洗数据是指识别和处理缺失值、重复值、异常值和不一致的数据。这可以通过填充缺失值、删除重复值和异常值、以及标准化和转换不一致的数据来实现。 2. 数据转换:在进行数据分析之前,通常需要对数据进行转换,以满足分析的要求。例如,将分类变量转换为数值变量(独热编码或标签编码)、对数变换、归一化或标准化等。 3. 特征选择:在数据集中选择最相关的特征,以提高模型的预测性能和解释能力。可以使用统计方法(如方差阈值、相关系数)或机器学习方法(如特征重要性评估、正则化方法)进行特征选择。 4. 数据集成:当需要使用多个数据源时,需要将它们合并成一个一致的数据集。这可以通过连接、合并或追加数据来实现。 5. 缩放和标准化:对数据进行缩放和标准化可以确保不同特征之间具有相似的尺度,以避免某些特征对模型的影响过大。常见的方法包括最小-最大缩放、标准化和归一化。 6. 异常值处理:异常值可能会对数据分析和建模产生负面影响。可以使用统计方法(如3σ原则、箱线图)或机器学习方法(如聚类、异常检测算法)来识别和处理异常值。 7. 数据平滑:数据平滑可以通过去除数据中的噪声和波动来减少数据的变异性,以便更好地发现趋势和模式。常见的方法包括移动平均、指数平滑和Loess平滑等。 以上是数据分析师必备的一些数据预处理技术,根据具体情况和需求,可能还会应用其他技术和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值