自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据清洗操作题-数据仓库

一.加载演员数据至演员维度表 1.打开kettle工具,创建转换 2.配置“表输入”控件 单击“预览”按钮查看字段 3.配置“表输入2”控件 单击“新建”配置数据库连接,配置完成后在SQL输入框中输入语句 在“从步骤输入数据”选择“表输入”,配置完成后如下所示: 4.配置“插入/更新”控件 双击该控件进入该界面之后单击“新建”按钮配置数据库连接;配置完成后单击目标表右侧的“浏览”按钮,选择目标表,即维度表“dim_actor” 单击“获取字段”按钮,指定查询数据需要...

2021-11-21 14:38:10 844

原创 数据清洗8.3.5-8.3.6实例

一.加载用户数据至用户维度表 1.打开kettle工具,创建转换 2.配置“表输入”控件 配置数据库连接,连接完成后在SQL语句编写框中编写SQL语句 单击“预览”按钮查看 3.配置“表输入2”控件 配置数据库连接,连接完成后在SQL语句编写框中编写如下SQL语句,用于获取数据库sakila中数据表customer中的最新数据 编写完成后在“从步骤插入数据”下拉列表中选择“表输入”,然后单击“确定”按钮完成配置 4.打开kettle工具,创建fetch_address转换 5...

2021-11-20 15:36:53 198

原创 数据清洗第八章-数据仓库

一.加载日期数据至日期维度表 1.打开kettle工具,创建转换 2.配置“生成记录”控件 双击“生成记录”控件,进入“生成记录”界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language、country_code、initial_date,对生成的日期进行初始化,然后单击“确定”按钮,完成配置 3.配置“增加序列”控件 在该控件中“值的名称”处将valuename改为DaySequence,即增加一列日期字段.

2021-11-20 10:40:22 1628 1

原创 数据清洗第七章操作题-数据加载实例

一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。 1.打开kettle工具,创建转换 2.配置“执行SQL脚本”控件 单击“新建”按钮,配置数据库连接(需要提前创建好数据库和full_source以及full_target两张数据表),配置完成后单击“确认”按钮。 3.配置“表输入”控件 在SQL编写框中编写查询数据表full_source数据的SQL语句,可以单击“预览”按钮,查看数据表full_source的数据是否成功..

2021-11-15 18:50:11 920

原创 数据清洗课后操作题-数据转换实例

一.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnle_data_new.txt中。 1.打开Kettle工具,新建转换 2.配置文本文件输入控件 双击“文本文件输入”控件,进入“文本文件输入”界面,单击“浏览”按钮,选择personnel_data.txt文件;单击“增加”按钮,将personnel_data.txt文件添加到g.

2021-11-12 20:03:18 1370

原创 CSV文件的完全去重与填充

一. 对文件merge.csv进行完全去重 1.打开kettle工具,新建转换 使用Kettle工具创建转换repeat.transform,并添加“CSV文件输人”控件、“唯一行(哈希值)”控件以及Hop跳连接线 2.配置“csv文件输入”控件 双击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv 单击“获取字段”按钮,kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析...

2021-11-08 17:27:03 2075

原创 CSV和Json文件的抽取

一.抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。 1.首先准备好一个CSV文件csv_extract.csv 2.打开kettle工具,创建转换 使用kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取 3.配置“CSV文件输入”控件 单击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要抽取的文件csv_extract....

2021-11-04 12:13:19 195

原创 数据清洗第三章转换和作业实例

一.转换实例 1、数据准备 创建一个数据库personal,并在该数据库中创建两张数据表,即数据表personal_a和数据库personal_b。 1、数据准备

2021-11-02 18:53:17 357

原创 《数据清洗ETL》——第一章笔记

1.1 数据清洗的背景 1.1.1 数据质量概述 数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。但是在不同的业务场景中,数据消费者对数据质量有各自不同的观点。 数据质量的特点如下: 1.“业务需求”会随时间变化,数据质量也会随时间变化。 2.数据质量可以借助信息系统度量,但独立于信息系统存在。 3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。...

2021-09-12 19:32:00 383

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除