自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第六章操作题

实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图1所示。(2)配置

2021-12-12 08:16:56 128

原创 8.3.7~8.3.8

8.3.7 加载演员数据至演员维度表打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,查看

2021-12-12 08:14:02 99

原创 8.3.5~8.3.6

一、加载用户数据至用户维度表操作介绍通过Kettle工具加载用户数据至用户维度表dim_customer。操作步骤(1)、打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。(2)、配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。

2021-12-12 08:10:30 128

原创 8.3.2~8.3.4

一、加载日期数据至日期维度表1、打开kettle 工具,创建转换2、配置“生成记录”控件3、配置“增加序列”控件4、配置“JavaScript代码”控件

2021-11-19 16:53:47 1251

原创 第七章操作题

一、操作题一1、打开kettle工具,创建转换使用kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入”控件,“表输出”控件以及Hop跳连接线,如图:2、配置“执行SQL脚本”控件在SQL框中编写删除数据表full_target中数据的SQL语句3、配置“表输入”控件在SQL框中编写查询数据表full_source数据的SQL语句,然后单击“预览”按钮,查看数据表full_source的数据是否成功从MySQL数据库中出抽取到表输..

2021-11-18 17:26:35 579

原创 第二章7个例子

一、Excel输入

2021-11-16 20:54:36 253

原创 第五章 数据的清洗与检验

一、完全去重1、打开kettle工具,新建转换2、配置“csv文件输入”控件3、配置“唯一行(哈希值)”控件4、运行二、填充缺失值1、打开kettle工具,创建转换2、配置“文本文件输入”控件3、配置“过滤记录”控件4、配置“替换NULL”控件5、配置“合并记录”控件6、配置“替换NULL值2”控件7、配置“字段选择”控件8、运行...

2021-10-30 11:35:18 49

原创 第四章 数据抽取

一、CSV文件的抽取1、打开kettle工具,创建转换2、配置CSV文件输入控件3、配置表输出控件4、运行转换csv_extract5、查看数据表csv的数据二、JSON文件的数据抽取1、打开kettle工具,创建转换2、配置JSON input 控件3、配置 表输出创建json表连接数据库4、运行json_extract5、查看数据表json中的数据...

2021-10-27 11:44:31 57

原创 2021-10-08

一、转换转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行。数据流是数据行从一个步骤到另一个步骤的移动。二、作业一个作业包含一个或多个作业项,并且这些作业项都以某种顺序进行执行的,作业执行的顺序由作业作业项之间的跳

2021-10-08 23:52:47 45

原创 1.1数据清洗的背景

1.1数据清洗的背景1.1.1 数据质量概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。(但在不同的业务场景中,数据消费者对数据质量有各自不同的观点)数据质量的显著特点如下:①“业务需求”会随时间变化,数据质量也会随时间反生变化。②数据质量可以借助信息系统量度,但独立于信息系统存在。③数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。1.1.2数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁...

2021-09-12 19:46:41 599

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除