自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据清洗(8.3.7-8.3.8)

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。2.配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击

2021-11-17 19:33:51 127

原创 数据清洗(8.3.5-8.3.6)

1.打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。2.配置“表输入”控件,进入“表输入”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_customer_last_uoda

2021-11-17 19:16:18 142

原创 第八章数据仓库

一、加载日期数据至日期维度表1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。3.配置“增加序列”控

2021-11-17 18:55:14 72

原创 数据加载实例

一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。1.打开kettle工具,创建转换2.配置“执行SQL脚本”控件(1)单击“新建”按钮,配置数据库连接(需要提前创建好数据库和full_source以及full_target两张数据表),配置完成后单击“确认”按钮。(2)在SQL框中编写删除数据表full_target中数据的SQL语句,然后单击“确定”按钮完成配置,如下图所示:3.配置“表输入”控件在SQL编写框中编写查

2021-11-04 11:05:46 79

原创 源数据获取

一.Excel输入1.打开kettle工具,创建转换2.配置“Excel输入”控件(1)双击“Excel输入”组件,弹出“Excel输入”对话框,浏览导入Excel文件。单击“浏览(B)…”按钮,在计算机上浏览并导入“物理成绩.xls”文件;添加并编辑Excel文件,单击“增加”按钮,将浏览导入至“文件或目录”输入框中:(2)单击“工作表”选项卡,设置选中的工作表参数。单击“确定”按钮,将“你的选择”列表选中的“Sheet1”工作表添加至“要读取的工作表列表”表中进行参数设置,“起始行”和“起

2021-11-04 11:00:27 228

原创 数据转换实例

现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary。通过kettle工具,实现以下功能:一.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnle_data_new.txt中。1.打开Kettle工具,新建转换2.配置文本文件输入控件(1)

2021-11-04 10:47:11 482 2

原创 使用kettle工具实现一个csv文件的完全去重和一个txt文件的缺失值填充

一. 对文件merge.csv进行完全去重1.数据准备合并后的用户名单存放在CSV文件merge.csv中,如下图所示:2.打开kettle工具,新建转换使用kettle工具创建转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,如下图所示:3.配置“csv文件输入”控件(1)双击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv,如下图所示:..

2021-11-04 10:25:49 279

原创 用kettle实现csv和json文件的抽取

首先准备好一个CSV文件csv_extract.csv如下图所示:1.打开kettle工具,创建转换使用kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能如下图所示:1)单击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要抽取的文件csv_extract.csv,如下图所示:2)单击“获取字段”按钮,kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、..

2021-11-04 10:08:16 493

原创 用kettle实现一个转换和一个作业

1. 数据准备 创建一个数据库personal,并在该数据库中创建两张数据表,即数据表personal_a和数据表personal_b,如下图所示:2.打开kettle工具,创建转换 通过使用kettle工具创建一个转换field_sitching,并添加“表输入”控件、“javaScript代码”控件、“插入/更新”控件以及跳连接线,如下图所:3.配置“表输入”控件 双击“表输入”控件,进入“表输入”界面,单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮,m...

2021-11-02 18:47:36 436

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除