Hadoop实现数据清洗ETL

最新推荐文章于 2024-05-18 15:37:01 发布

waectr

最新推荐文章于 2024-05-18 15:37:01 发布

阅读量8.1k

点赞数 3

分类专栏： Hadoop 文章标签： Hadoop ETL 数据清洗

本文链接：https://blog.csdn.net/waectr/article/details/97369441

版权

准备

LKh7zAJ4nwo	TheReceptionist	653	Entertainment	424	13021	4.34	1305	744	DjdA-5oKYFQ	NxTDlnOuybo	c-8VuICzXtU	DH56yrIO5nI	W1Uo5DQTtzc	E-3zXq_r4w0	1TCeoRPg5dE	yAr26YhuYNY	2ZgXx72XmoE	-7ClGo-YgZ0	vmdPOOd6cxI	KRHfMQqSHpk	pIMpORZthYw	1tUDzOp10pk	heqocRij5P0	_XIuvoH6rUg	LGVU5DsezE0	uO2kj6_D8B4	xiDqywcDQRM	uX81lMev6_o

这是一行我们准备清洗的数据，它的每个数据的意思是（依次）
视频唯一id 视频上传者视频年龄视频类别视频长度观看次数视频评分流量评论数相关视频id
要注意的是：

视频类别：可能有多个分类，中间要以&分割，但是在有的数据中会以如下形式显示

People & Blogs   & 中间有空格，我们要处理掉它

相关电影id是以tab(" \t ")分割的，我们要将他换为空格
有的电影没有相关电影，我们要将这些数据过滤掉

了解需求后，我们开始做！

环境

IDEA + Maven +hadoop

最新发布

weixin_63257947的博客

05-18

931

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

雲的博客

07-22

2732

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗 网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.h

Hadoop案例：数据清洗（ETL）

小M呀~之大数据系列

12-08

4417

目录 1.概述 2.需求 3.代码实现 3.1编写WebLogMapper类 3.2编写WebLogDriver类 1.概述 “ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL 一词较常用在数据仓库，但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。...

Hadoop（18）：MapReduce框架原理之数据清洗（ETL）

yang_shibiao的博客

05-03

2226

hadoop的数据清洗

曜耀的博客

07-19

565

大家好，我是曜耀。今天发一篇，关于大数据清洗数据的java代码 public class accesstMapper extends Mapper<LongWritable, Text, Text, NullWritable>{ @Override protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context

【MapReduce篇07】MapReduce之数据清洗ETL1

08-04

本文将深入探讨MapReduce之数据清洗ETL（Extract，Transform，Load），并结合实例代码详细介绍数据清洗的实现过程。 数据清洗的重要性 数据清洗是数据处理过程中非常关键的一步。原始数据可能包含噪音、缺失值、不...

基于Scrapy爬虫+大数据（Hadoop、ETL）+机器学习的智能招聘推荐系统

05-07

大数据云计算技术淘宝网Hadoop与数据分析 taobao数据团队（共30页）.ppt

09-04

典型的Hadoop离线分析系统通常由数据采集、数据清洗、数据存储、数据处理和数据可视化等部分组成。在淘宝的环境中，数据可能首先通过ETL（Extract, Transform, Load）过程进入HDFS，然后由Hive进行查询和分析，最后...

大数据云计算技术淘宝网基于Hadoop的数据应用开发平台iData（共27页）.pptx

09-04

其中，数据分析师、ETL开发工程师、模型架构师、运营程序员等角色共同参与，实现从业务理解到数据化运营的全过程。数据产品开发团队、商业智能团队和数据开发团队分别负责不同环节，确保数据的有效利用。 3. **技术...

Hadoop_数据清洗示例

m0_67401228的博客

04-03

2246

Hadoop_数据清洗示例（去除空行、开头为空格的数据）：原始数据：D:data estdata.txt zhangsan 500 450 jan zhangsan 550 450 feb lisi 210 150 jan lisi 200 150 feb zhangsan 400 150 march zhangsan 600 500 april lisi 190 150 april 800 100 jan BLU 2000 200 feb lisi 110 10 may DataCleanMa

Hadoop-MapReduce（数据清洗）

啊晨

12-30

4697

文章目录数据清洗1)简单解析版2)复杂解析版 数据清洗 在运行核心业务Mapreduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序，不需要运行reduce程序。 1)简单解析版（1）需求：去除日志中字段长度小于等于11的日志。（2）输入数据这里简单列举一些，实际工作要比这多很多 194.237.142.21 - - [18/Sep...

共同好友统计（上）

shyming's blog

08-07

151

共同好友统计------->删除单边好友 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mappe

Hadoop(21)-数据清洗(ELT)简单版

weixin_30840253的博客

12-14

235

有一个诸如这样的log日志去除长度不合法,并且状态码不正确的记录 LogBean package com.nty.elt; /** * author nty * date time 2018-12-14 15:27 */ public class Log { private String remote_addr;// 记录客户端的ip地址 ...

Hadoop离线项目之数据清洗

゛Never give up~

04-06

1402

#前言企业级项目开发流程项目调研：技术？业务？产品经理、非常熟悉业务、项目经理需求分析：做什么做成什么样用户提出来的：显式隐式方案设计概设详设系统设计功能开发开发测试：单元测试 CICD 测试功能联调性能用户试用部署上线试运行 DIFF 稳定性正式上线灰度后期二期、三期、四期等运维保障功能开发 bug修复（涉及到功能开发...

hadoop离线项目之数据清洗

qq_37283909的博客

03-30

380

企业级项目开发流程一、项目调研：以业务为导向产品经理、非常熟悉业务、项目经理二、需求分析：做什么做成什么样用户提出来的：显式隐式：用户不清楚，团队需提供三、方案设计概设详设（具体到所有功能的实现，技术，表，模块，字段，有多少个类，类里的方法及方法名，参数，返回类型。。。）系统设计（系统的扩展，水平的扩展，是否容错，可不可以定制化，监控告警…）四、功能开发开发测试：...

将数据清洗ETL的步骤进行详细介绍

06-11

好的，下面是数据清洗ETL的步骤详细介绍： 1. 数据提取（Extract）：从原始数据源中提取需要的数据，通常会使用数据抽取工具，例如 Sqoop、Flume 等，将数据从各种数据源如关系型数据库、文件等中读取出来。 2. ...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交