自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第8章 综合案例 8.3.7-8.3.8

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换load_dim_actor;2.配置“表输入”控件;3.配置“表输入2”控件;4.配置“插入/更新”控件;5.运行转换load_dim_actor;6.查看维度表dim_actor中的数据。8.3.8 加载电影数据至电影维度表1.打开Kettle工具,创建转换load_dim_film;2.配置“表输入”控件;3.配置“表输入2”控件;4.配置“数.

2021-11-17 22:21:57 250

原创 第8章 综合案例 8.3.5-8.3.6

8.3.5 加载用户数据至用户维度表1.打开Kettle工具,创建转换load_dim_customer;2.配置“表输入”控件;3.配置“表输入2”控件;4.打开Kettle工具,创建子转换fetch_address;5.配置“映射输入规范”控件;6.配置“数据库查询”控件;7.配置“数据库查询2”控件;8.配置“数据库查询3”控件;9.配置“过滤记录”控件;10.配置“JavaScript代码”控件;11

2021-11-17 21:08:33 346

原创 第8章 综合案例 8.3.2-8.3.4

8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换load_dim_date;2.配置“生成记录”控件;3.配置“增加序列”控件;4.配置“JavaScript代码”控件;5.配置“表输出”控件;6.运行转换load_dim_date;7.查看维度表dim_date中的数据。8.3.3 加载时间数据至时间维度表1.打开Kettle工具,创建转换load_dim_time;2.配置“生成记录”控件;3.配置“增

2021-11-17 11:26:41 259

原创 第7章 数据加载 操作题

一、全量加载1.打开Kettle工具,创建转换;2.配置“执行SQL脚本”控件;3.配置“表输入”控件;4.配置“表输出”控件;5.运行转换full_load;6.查看数据表full_target中的数据。二、增量加载1.打开Kettle工具,创建转换;2.配置“表输入”控件;3.配置“插入/更新”控件;4.修改数据表incremental_source中的数据;5.运行转换incremental_l

2021-11-15 22:39:16 234

原创 第6章 数据转换 操作题

一、实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。1.打开Kettle工具,新建转换;2.配置“文本文件输入”控件;3.配置“字段选择”控件;4.配置“排序记录”控件;5.配置“表输入”控件;6.配置“排序记录2”控件;7.配置“记录.

2021-11-15 21:42:10 494

原创 ETL数据整合与处理实例

一、Excel输入1.打开kettle工具,创建转换;2.配置“Excel输入”控件;3.运行转换。二、生成记录1.打开kettle工具,创建转换;2.配置“生成记录”控件;3.运行转换。三、生成随机数1.打开kettle工具,创建转换;2.配置“生成随机数”控件;3.配置“Excel输出”控件;4.运行转换。四、获取系统信息1.打开kettle工具,创建转换;2.配置“获取系统信息”控件;.

2021-11-15 16:08:23 633

原创 第5章 数据的清洗与检验 操作题

一、完全去重1.创建转换repeat_transform;2.配置“CSV文件输入”控件;3.配置“唯一行(哈希值)”控件;4.运行转换repeat_transform;5.查看处理后的数据。二、填充缺失值1.创建转换fill_missing_value;2.配置“文本文件输入”控件;3.配置“过滤记录”控件;4.配置“替换NULL值”控件;5.配置“合并记录”控件;6.配置“替换NULL值2”控件;.

2021-10-12 21:31:48 71

原创 第4章 数据抽取 操作题

一、CSV文件的抽取1.创建转换csv_extract;2.配置“CSV文件输入”控件;3.配置“表输出”控件;4.运行转换csv_extract;5.查看数据表csv中的数据。二、JSON文件的数据抽取1.创建转换json_extract;2.配置“JSON input”控件;3.配置“表输出”控件;4.运行转换json_extract;5.查看数据表json中的数据。...

2021-10-05 18:08:46 70

原创 实现一个转换一个作业的例子

一、转换1.双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,重命名转换为example;2.单击Kettle树形列表的核心对象,切换到转换的核心对象界面,然后单击“输入”,将“表输入”拖拽到Kettle的工作区;单击“输出”,将“文本文件输出”也拖拽到Kettle的工作区;3.按住Ctrl键的同时,选中“表输入”和“文本文件输出”并右击,从弹出的快捷菜单中选择“新建节点连接”命令,在弹出的窗口中选择“起始步骤”和

2021-09-26 22:00:27 53

原创 2021-09-12

数据质量是指在业务环境下 数据符合数据消费者的使用目的 能满足业务场景具体需求的程度从适用性的角度看 数据质量是一个相对的概念 不同的决策者对数据质量的高低要求也是不同的 对于一个无关数据 及时 质量很高 对决策也起不到任何作用数据质量的显著特点如下 :业务需求会随时间变化 数据质量也会随时间发生变化数据质量可以借助信息系统量 但独立于信息系统存在 。数据质量存在于数据的整个生命周期 随着数据的产生而产生 随着数据的消失而消失 。单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度单

2021-09-12 23:32:07 637

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除