自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第六章操作题

题目:现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary。通过kettle工具,实现以下功能:一、对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnle_data_new.txt中。1、打开Kettle工具,新建转换...

2021-11-25 15:28:27 272

原创 第八章例子

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示:

2021-11-25 15:24:37 642

原创 第八章操作题

一、加载用户数据至用户维度表1。打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。(2)、配置表输入控件...

2021-11-20 21:14:43 765

原创 第八章例子

一、加载日期数据至日期维度表通过Kettle工具加载日期数据至dim_date日期维度表。1、打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示2、配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段lan.

2021-11-20 20:58:04 1074

原创 第二章 数据清洗例子

1.excel输入1)双击“Excel输入”组件,弹出“Excel输入”对话框,浏览导入Excel文件。单击“浏览(B)…”按钮,在计算机上浏览并导入“物理成绩.xls”文件;添加并编辑Excel文件,单击“增加”按钮,将浏览导入至“文件或目录”输入框中:(2)单击“工作表”选项卡,设置选中的工作表参数。单击“确定”按钮,将“你的选择”列表选中的“Sheet1”工作表添加至“要读取的工作表列表”表中进行参数设置,“起始行”和“起始列”参数都设置为“0”:单...

2021-11-19 20:19:38 198

原创 第七章操作题

一、全量加载1.数据准备现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。2.打开Kettle工具,创建转换2.配置执行SQL脚本控件3.配置表输入控件4.配置表输出控件5.运行转换二、增量加载1.数据准备现有两张数据表,分别为incremental_source和incrementa...

2021-11-09 20:06:45 43

原创 数据清洗第五章

一、对文件merge.csv进行完全去重1、打开Kettle工具,新建转换使用Kettle工具创建转换repeat.transform,并添加“CSV文件输人”控件、“唯一行(哈希值)”控件以及Hop跳连接线2、配置“CSV文件输入”控件,进入“CSV文件输入”界面双击“CSV文件输入”控件,进入“CSV文件输入”界面单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv单击“获取字段”按钮Kettle会自动检索CSV文件,并对文件中的字型、格式、长度精...

2021-10-25 17:01:05 110

原创 数据清洗第四章操作题

一、抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。1)打开Kettle工具,创建转换使用Kettle工具创建一个转换csV_ extract,并添加"CSV文件输入”控件、“表输出”物件以及Hop跳连接线,用于实现CSV文件数据的抽取功能2)配置“CSV文件输入”控件双击“CSV文件输入控件”,进入“CSV文件输入”界面。单击浏览按钮,选择要抽取的文件csv_extract.csv单击“获取字段"按钮,Kettle自动检索CSV文件..

2021-10-25 15:58:47 309

原创 kettle实现作业转换例子

转换作业

2021-10-08 23:33:55 86

原创 数据清洗笔记第一章

1.数据质量的评价指标准确性丶完整性丶简洁性丶适用性2 .数据质量的问题分类1)基于数据源的“脏”数据分类①单数据源问题 ②多数据源问题2)基于清洗方式的“脏”数据分类①独立型”脏“数据②依赖型”脏“数据 缺失数据 重复数据3.数据清洗原理和定义数据清洗技术是提高数据质量的有效方法。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。数据清洗的目的是把“脏”数据洗干净 而不是洗掉“脏”数据4.数据清洗基本流程...

2021-09-12 16:59:24 494

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除