自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 综合案例——构建DVD租赁商店数据仓库

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临

2021-11-17 14:06:43 502

原创 综合案例——构建DVD租赁商店数据仓库

8.3.5 加载用户数据至用户维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示:3.配置表输入2控件双击“表输入2”控件,进入“表输入”配置界面,单击【新建】按钮,配置

2021-11-17 13:41:29 402

原创 第八章综合案例——构建DVD租赁商店数据仓库

8.3 案例实现8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线。2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial

2021-11-15 17:01:47 867

原创 数据加载作业

7.1 数据加载机制数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。7.1.1 全量加载案例实现数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。1.打开Kettle工具,创建

2021-11-08 16:09:14 197

原创 数据情洗第二章

1.Excel输入1、打开Kettle工具,创建转换使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图所示:2、配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮示;单击“工作表”选项卡,获取工作表,如图所示;单击“字段”选项卡,添加字段,如图所示:3、单击转换工作区顶部按钮,运行创建的转换,如图所示:2.生成记录1、打开Kettle工具,创建转换使用Kettle工具,创建

2021-11-01 21:48:36 59

原创 第六章操作题

操作题通过使用Kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt 中。1、打开...

2021-11-01 15:17:09 99

原创 第五章操作题

通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示:双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示:单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。单击【预览】按钮,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中

2021-10-13 13:06:49 63

原创 数据抽取(加图)

TSV文件的抽取CSV文件抽取HTML网页的数据抽取XML文件的数据抽取![在这里插入图片描述](https://img-blog.csdnimg.cn/55abc06ca4b1494ead44ec05721e2202.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,...

2021-10-07 12:02:35 476

原创 Kettle工具的基本使用

Kettle工具的基本使用kettle概述:Kettle工具主要是由4个组件组成,分别是Spoon、Pan、Kitchen、Carte组件。Spoon是Kettle的集成开发环境,会提供基于SWT的图形用户界面,主要用于构建ETL Jobs(作业)和Transformations(转换),也可用于执行和调试作业、转换,还可以用于监控ETL操作的性能。Pan是以命令行的方式(即编写Shell脚本)执行Spoon生成的Transformations程序,运行在后台,并且该组件没有图形用户界面。

2021-09-21 17:48:38 1532

原创 2021-09-12

**数据清洗概述**数据情洗的背景数据质量是指业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。从适用性角度看,数据质量是一个相对概念(与决策有关)。数据质量的显著特点:业务需求会随时间变化,数据质量也会随时间发生变化。数据质量可以借助信息系统度量,但独立于信息系统存在。数据质量存在于数据的整体生命周期,随着数据的产生而产生,随着数据的消失而消失。数据质量的评价指标:准确性:数据的准确性是要求数据中的噪声尽可能少。完整性:数据信息是否存在缺失的状况。简洁性:尽量选择

2021-09-12 17:49:28 593

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除