自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 第六章数据清洗

(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图1所示。2)配置文本文件输入控件双击图6-1中的“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data.txt文件;单击【增加】按钮,将要抽取的personnel_data.txt文件添加到generalization转换中。

2021-12-11 20:04:33 642

原创 综合案例8.3.9-8.3.10

加载租赁数据至租赁事实表创建一个转换,添加相应的控件;配置表输入控件;配置表输入2控件;配置字段选择控件;配置过滤记录控件;配置计算器控件;配置增加常量控件;配置数据库查询控件;配置数据库查询2控件;配置维度查询/更新控件;配置维度查询/更新2;配置维度查询/更新3;配置增加常量2控件;配置插入/更新控件;执行结果:加载数据库sakila中的数据至数据仓库s...

2021-11-19 20:38:10 514

原创 综合案例8.3.7-8.3.8

加载演员数据至演员维度表1.创建转换,添加相应的控件,如图所示:2.配置表输入控件:3.配置插入/更新控件;4.执行结果:加载电影数据至电影维度表1.创建转换;...

2021-11-19 20:09:22 112

原创 综合案例8.3.5-8.3.6

加载用户数据至用户维度表创建转换,添加相应的控件配置表输入控件配置表输入2控件使用Kettle创建转换fetch_address,该转换为转换load_dim_customer的子转换,并添加相应的控件;配置映射输入规范控件;配置数据库查询控件;、配置数据库查询2控件;配置数据库查询3控件;配置过滤记录控件;配置Javascript代码控件;’配置字段选择控件;配置映射控件;配置字段选择控件...

2021-11-19 17:05:57 194

原创 加载日期数据至日期维度表

创建转换,添加“生成记录”控件,“增加序列”控件,“JavaScript代码”控件,表输出配置生成记录控件配置增加序列控件JavaScript代码配置表输出执行结果:

2021-11-18 11:48:31 1032

原创 Kettle全量加载

有两张数据表,full_source和full_target,其中,full_source为源数据表,full_target为目标数据表。创建转换,添加“执行SQL脚本”控件,表输入,表输出配置执行SQL脚本控件,单击新建,连接数据库单击新建,连接数据库配置表输入配置表输出执行结果:...

2021-11-05 15:51:37 112

原创 kettle_六个案例

一.Excel1.创建转换,控件:Excel输入2.配置Excel控件二.生成记录三.生成随机数1.生成记录控件2.配置生成记录控件批量生成记录\配置生成随机数控件配置Excel控件四.记录系统信息五.排序记录1.创建转换,控件为Excel输入,排序记录2.配置Excel输入控件3.配置排序记录六.替换null值1.创建转换2...

2021-10-31 21:12:18 221

原创 第五章完全去重与填充缺失值

一.完全去重1.新建一个转换,控件为CSV文件输入和唯一行(哈希值)2.配置CSV文件输入控件3.配置哈希值控件4.执行结果如下:二.填充缺失值1.创建一个转换,包括以下几个控件2.配置过滤记录控件3.配置替换null值控件4.配置合并记录控件5.配置替换null值26.配置字段选择控件...

2021-10-31 18:14:16 99

原创 第四章数据清洗作业

一.抽取CSV文件中的数据保存至数据库1.根据数据表中的数据结构和数据类型创建数据库2.创建一个转换,包含两个步骤(控件),即CSV文件输入和表输出。3.配置CSV文件输入控件4.配置表输出控件5.运行结果二.抽取JSON文件中的数据保存至数据库1.创建一个转换,包括三个步骤(控件),即JSON Input,JSON Input2,表输出。这里采用分层抽取字段,先抽取id和data字段,再从data字段中抽取field和value字段。...

2021-10-07 18:05:32 164

原创 Kettle--转换,作业案例(数据清洗笔记)

转换:双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”>>“新建”>>“转换”,创建一个转换,如图1。图1对转换进行重命名,选择“文件”>>“保存”,如图2。图2在Kettle主界面的空白工作区右击,选择“新建注释”命令,并添加注释的内容;然后单击“输入,将“表输出”拖曳到工作区;单击“输出”,将“文本文件输出”拖曳到工作区;将这两个步骤用跳链接,具体如图3所示。图3作业:打...

2021-09-15 15:39:10 544

原创 数据清洗概述(数据清洗读书笔记)

1.1数据清洗的背景1.1.1数据质量概述 数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量是一个相对的概念(与决策有关)。 数据质量的特点: 1.“业务需求”会随时间变化,数据质量也会随时间变化。 2.数据质量可以借助信息系统度量,但独立于信息系统存在。 3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。1.1...

2021-09-09 16:07:35 408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除