自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 第八章综合案例——构建DVD租赁商店数据仓库

8.3 案例实现8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图1所示。图1 创建转换2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、co..

2021-11-15 15:36:26 372

原创 第七章操作题

7.1 数据加载机制数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。7.1.1 全量加载案例实现数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。1.打开Kettle工

2021-11-15 15:02:15 154

原创 ETL-------数据整合与处理

1.Excel输入1.打开Kettle工具,创建转换:使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图1所示:图1 创建转换2.配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮,具体效果如图2所示;单击“工作表”选项卡,获取工作表,如图3所示;单击“字段”选项卡,添加字段,如图4所示:图2 配置“文件”选项卡图3 配置“工作表”选项卡...

2021-11-08 16:15:52 673

原创 第六章实操题

现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary,具体内容如下图6-0所示:通过使用Kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt 中。1.打开Kettle工具,

2021-11-01 20:31:45 341

原创 完全去重和缺失值的填充

通过kettle工具,实现以下功能:(1)对文件merge.csv进行完全去重。1、打开kettle工具创建转换:图1(创建转换)2、配置CSV文件输入控件:双击CSV文件输入控件,进入CSV文件输入界面如图2所示:图2(CSV文件输入界面)点击图2中的浏览按钮,选择要进行完全去重的CSV文件:图3(选择要去重的CSV文件)点击获取字段按钮,结果如图4所示:图4(获取字段)预览数据如图5所示:图5(预览数据)3、配...

2021-10-13 11:36:35 296

原创 kettle实现CSV文件、JSON文件数据的抽取

通过kettle工具实现以下功能:(1)抽取csv文件csv_extract.csv中数据保存至数据库extract中的数据表csv中。(2)抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中。

2021-10-07 13:37:58 487

原创 数据清洗学习笔记-----第二章Kettle的基本使用

2.1 Kettle简介 Kettle是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的。它主要由四个组件组成:SPoon:Kettle的集成开发环境,提供2.2Kettle的下载安装

2021-09-15 17:05:11 483

原创 数据清洗学习笔记-----第一章数据清洗概述

一、背景介绍 企业所拥有的数据仓库中的数据的来源是广泛的,数据类型也是多而繁杂的。因此数据经常不是我们想要的。数据可能存在一些不完整的情况或者有一些错误,重复的数据,那么我们需要对数据进行清洗来得到一个符合我们要求的数据集。二、什么是数据清洗? 数据清洗是从一个充满拼写错误、缺失值、异常值等问题的原始数据集通过数据转换、缺失处理等手段映射为一个符合质量要求的“新”数据集的过程。 数据清洗的原理是利用相关技术将“脏”数据转化为满足质量要求的数据。三、数据质量 1、定义:数据质量...

2021-09-08 17:31:00 546

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除