自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第八章 8.3.7-8.3.8

8.3.7 加载演员数据至演员维度表首先在数据库中新建名为dim_actor表:然后我们新建如图所示的转换:首先配置表输入控件,连接数据库并且写入SQL语句:然后配置表输入2控件:然后配置插入/更新控件:最后运行该转换结果如下:查看dim_actor表:8.3.8 加载电影数据至电影维度表:首先创建名为dim_film和dim_film_actor_bridge:然后我们新建如图所示的转换:首先配置表输入控件:...

2021-11-15 19:39:55 457

原创 第八章 8.3.5-8.3.6

8.3.5 加载用户数据至用户维度表首先新建名为dim_customer的用户维度表:然后我们新建如图所示的转换:首先配置表输入控件,连接数据库,并且写入SQL语句:然后配置表输入2控件:接下来创建一个子转换用于实现获取用户的地址,如图 :配置映射输入规范控件:配置数据库查询控件:配置数据库查询2控件:配置数据库查询3控件:配置过滤记录控件:配置JavaScript代码控件:配置字段选择控件:...

2021-11-11 21:01:09 589

原创 第八章 8.3.2-8.3.4

8.3.2 加载日期数据至日期维度表先在数据库中创建如图所示名为dim_date的数据表:然后我们新建如图所示的转换:开始配置生成记录控件,将限制处的数据改为3650,即生成10年的日期,并且在字段处添加相应的字段,对生成的数据进行初始化如图:接下来我们开始配置增加序列组件,将值的名称修改为DaySequence,即增加一列日期字段,如图:然后开始配置JavaScript控件,勾选兼容模式复选框,然后在代码框处写入相应的代码,具体效果如图所示:最后配置表...

2021-11-10 20:54:36 773

原创 第二章6个例子:

1.Excel输入有一张excel表格如图所示:(表格太长,只截取了前十行)创建excel输入转换如图所示:双击配置excel控件:首先单击浏览,选中将要使用的数据然后点击增加将数据添加到选中的文件处:单击工作表选项卡,点击获取工作表名称,如图所示:然后将起始行与起始列都设置为0:然后点击字段选项卡,点击获取来自头部数据的字段,并且设置参数:然后点击预览记录,如图所示:2.生成记录首先添加生成记录组件如图所示:进入该...

2021-11-09 22:09:21 235

原创 第七章作业

1.将一张表的数据全量加载到另一张数据表中有两张如图所示的数据表full_source和full_target:接下来我们建立如图所示的转换:我们开始配置执行SQL脚本控件,如图所示:接下来配置表输入控件,如图所示:、最后我们开始配置表输出控件,如图所示:最后我们运行该转换如图所示:最后查看数据表full_target,发现数据已经插入到了该表中:2.将一张数据表中的新增,变化的数据加载到另一张表中:有两张表如图所示,其中一张...

2021-11-09 20:39:08 93

原创 第六章作业

一.利用kettle工具对数据进行颗粒度的转换1.首先新建如图所示的转换:2,然后我们开始配置文本文件输入控件,首先将要处理的数据添加指定位置:然后插入制表符,取消勾选头部复选框:然后配置字段选项卡:3.然后配置字段选择选项卡:4.配置排序记录控件:5.配置表输入控件:6.配置排序记录2控件:7.配置记录集连接控件:8.配置字段选择2控件:9.配置排序记录3控件:10.配置表输入2控件:1...

2021-10-25 19:13:29 75

原创 利用kettle对文件进行完全去重和对缺失值进行填充

1.对文件merge.csv进行完全去重首先,我们新建一个名为repeat_transform的转换,如图所示:然后我们开始配置“csv文件输入”控件 ,单击浏览,将我们要处理的文件选中。然后单击获取字段,如图所示:然后我们点击预览,发现有几组数据是重复数据,如图所示:至此,完成“csv文件输入”控件的配置工作。接下来我们开始配置“唯一行(哈希值)”控件,在用来比较的字段处添加需要去重的字段,如图所示:然后确定,完成“唯一行”控件的配置工作。最后,我们运行该转..

2021-10-13 11:06:20 760

原创 kettle抽取数据

1.抽取CSV文件csv_extract.csv中的数据保存到数据库extract的数据表csv中。首先我们在数据库extract中新建一个名为csv的表格,如图所示:接下来,我们在kettle中创建一个名为csv_extract的转换,如图所示:然后我们进入“csv文件输入”控件,点击浏览,添加我们要抽取的文件csv_extract.csv,然后点击下方的获取字段,如图所示:然后点击确定,完成“csv文件输入”控件的配置。之后,我们进入“表输入控件”,配置数据库连接..

2021-09-29 18:36:13 3925

原创 kettle转换及其作业

1.转换我们新建一个名为example1的转换,然后在kettle工作区右击空白处,选择“新建注释”命令,并且将注释内容写进去,如图所示:然后单击左边的核心对象中的“输入”,选定里面的“表输入” ,将其拖拽到工作区右边的空白处。同理点击“输出”,将其里面的“文本文件输出”也拖拽到工作区右边的空白处,如图所示:然后我们同时选中“表输入”和“文本文件输出”,在弹出的快捷菜单选择新建节点连接,选择起始步骤和目标步骤,点击确定,建立连接,如图所示:这便完成了一个简单的转换。2.作业

2021-09-19 17:56:44 203

原创 数据清洗第一章学习笔记

一.数据清洗的背景当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。1.数据质量概述数据质量的特点如下:1.1.“业务需求”会随时间变化,数据质量也会随时间变化。1.2.数据质量可以借助信息系统度量,但独立于信息系统存在。...

2021-09-11 19:39:05 199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除