自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 数据清洗 8.37~8.38

1.打开Kettle工具,创建转换,load_dim_actor。2.配置“表输入”控件。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段3.配置“表输入2”控件,进入表输入2界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮,在SQL框中编写SQL语句,用于获取数据库sakila中数据表actor中的最新数据。4.配置“插入/...

2021-11-22 16:40:18 443

原创 数据清洗 8.35~8.36

一、加载用户数据至用户维度表1.打开kettle工具,创建load_dim_customer转换2.配置“表输入”控件,进入“表输入”界面3.配置“表输入2”控件3.打开kettle工具,创建fetch_address转换4.配置“数据库查询”控件5.配置“数据库查询3”控件,双击图中“数据库查询3”控件,进入“数据库查询3”界面。6.配置“过滤记录”控件,进入过滤记录界面。“条件”处设置过滤条件...

2021-11-20 11:25:38 354

原创 数据清洗 第八章

一、加载日期数据至日期维度表1.打开Kettle工具创建转换,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,修改为3650;在“字段”框添加字段language,country_code,initial_date,对生成的日期进行初始化。3.配置“增加序列”控价,进入“增加序列”界面。4.增加“JavaScript代码”控件,双击“JavaSc..

2021-11-20 10:52:19 932

原创 数据清洗 第七章

一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。1.打开kettle工具,创建转换2.配置“执行SQL脚本”控件(1)单击“新建”按钮,配置数据库连接(需要提前创建好数据库和full_source以及full_target两张数据表),配置完成后单击“确认”按钮。(2)在SQL框中编写删除数据表full_target中数据的SQL语句,然后单击“确定”按钮完成配置,如下图所示:3.配置“表输入”控件在SQL编写框中...

2021-11-17 21:01:16 140

原创 数据清洗 第二章 第六个例子

一、Excel输入1.新建一个转换,并添加"Excel输入"控件2.配置“Excel”输入控件首先选择要处理的文件点击“工作表”选项卡,进行配置点击“字段”选项卡,获取数据字段3.运行转换,并预览结果二、生成记录1.添加“生成记录”控件2.配置“生成记录”控件添加字段3.运行转换,并预览结果三、生成随机数1.添加“生成随机数”控件2.配置“生成随机数”控件...

2021-11-17 20:38:04 46

原创 数据清洗 第六章

一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段中household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。 1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。 2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件...

2021-11-15 16:07:28 183

原创 数据清洗 第五章

一、对文件merge.csv进行完全去重 1.使用Kettle工具创建转换repeat.transform,并添加“CSV文件输人”控件、“唯一行(哈希值)”控件以及Hop跳连接线. 2.双击“CSV文本输入”控件,进入“CSV文件输入”界面,点击浏览按钮,选择要去重的CSV文件 3.点击获取字段,Kettle会自动检索CSV文件,并对文件属性就行分析,单击预览,查看CSV文件是否被加载到CSV文件输入流中。 4.匹配“唯一行(哈希值)”控件 双击“唯一...

2021-10-20 12:02:48 136

原创 数据清洗 第四章

一、CSV文件的抽取1.打开Kettle工具创建一个csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop连接线,用来实现CSV文件数据的抽取功能2.进入“CSV文件输入”控件,进入“CSV文件输入”界面,点击浏览,选取文件csv_extract.csv3. 点击获取字段和预览按钮,Kettle自动检索CSV文件,、4.双击“表输出”,进入表输出界面,点击“新建”按钮,进行配置数据库连接,勾选指定数据库字段复选框,将csv_extract.c...

2021-10-18 16:20:50 107

原创 数据清洗第三章Kettle

一、Kettle概述 Kettle是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间数据的迁移。Kettle工具主要由4个组件组成,分别是SpoonPan、Kitchen及Carte组件,具体功能介绍如下。Spoon 是Kettle的集成开发环境,它会提供一个基于SWT的图形用户界面,主要用于构建ETL Jobs(作业)和Transformations(转换),也可用于执行或调试...

2021-10-11 16:11:08 611

原创 数据清洗笔记 第一章

一、数据清洗背景 当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbage in,garbage out)”如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。由此可见,数据质量在企业战略决策中占据着重要的地位。1.1 数据质量概述 ...

2021-09-12 18:00:46 353

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除