自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据清洗第八章—例子3

目录一、加载演员数据至演员维度表1、打开kettle工具,创建load_dim_actor转换2、配置“表输入”控件3、配置“表输入2”控件4、配置“插入/更新”控件5、运行转换load_dim_actor二、加载电影数据至电影维度表1、打开kettle工具,创建load_dim_film转换2、配置“表输入”控件3、配置“表输入2”控件4、配置“数据库查询”控件5、配置“数据库查询2”控件6、配置“值映射”控件7、配置“列拆分为多行”控件..

2021-11-22 23:02:00 287

原创 数据清洗第八章—例子2

目录一、加载用户数据至用户维度表1、打开kettle工具,创建load_dim_customer转换2、配置“表输入”控件3、配置“表输入2”控件4、打开kettle工具,创建fetch_address转换5、配置“映射输入规范”控件6、配置“数据库查询”控件双击进入该控件首先配置数据库连接,连接完成后单击表名右侧的“浏览”按钮,添加数据表address;在“查询所需的关键字”框中添加查询所需的关键字字段address_id,由于该字段是唯一的,因此可作为数据表addr.

2021-11-20 16:27:38 215

原创 数据清洗第八章—例子

目录一、加载日期数据至日期维度表1、打开kettle工具,创建load_dim_date转换2、配置“生成记录”控件3、配置“增加序列”控件4、配置“JavaScript代码”控件5、配置“表输出”控件6、运行转换load_dim_date7、查看维度表dim_date中的数据二、加载时间数据至时间维度表1、打开kettle工具,创建load_dim_time转换2、配置“生成记录”控件3、配置“增加序列”控件4、配置“JavaScript代码”...

2021-11-19 23:52:23 337

原创 数据第七章—课后操作题

目录一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。1.打开kettle工具,创建转换2.配置“执行SQL脚本”控件3.配置“表输入”控件4.配置“表输出”控件5.运行转换full_load6.查看数据表full_target中的数据二.通过使用kettle工具,实现将数据表incremental_source中的数据增量加载到数据表incremental_target中,即将数据表incremental_

2021-11-15 16:35:16 132

原创 数据清洗七个例子

目录一、Excel输入1、打开kettle工具,创建转换2、配置“Excel输入”控件二.生成记录1、打开kettle工具,创建“生成记录”转换2、配置“生成记录”控件三、生成随机数1、打开kettle工具,创建转换2、配置“生成随机数”控件四、获取系统信息1、打开kettle工具,创建转换2、配置“获取系统信息”控件​五、排序记录1、打开kettle工具,创建转换2、配置“排序记录”控件六、去除重复记录1、...

2021-11-05 17:46:34 1034

原创 数据清洗第六章—课后操作题

目录一、对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnle_data_new.txt中。1、打开Kettle工具,新建转换2、配置文本文件输入控件3、配置字段选择控件4、配置排序记录控件​5、配置表输入控件​6 、配置排序记录2控件7、配置记录集连接控件8、配置字段选择2控件9、配置排序记录3控件..

2021-11-05 09:31:22 1105

原创 数据清洗第五章—文件的去重与填充

一、对文件merge.csv进行完全去重1、打开Kettle工具,新建转换使用Kettle工具创建转换repeat.transform,并添加“CSV文件输人”控件、“唯一行(哈希值)”控件以及Hop跳连接线2、配置“CSV文件输入”控件,进入“CSV文件输入”界面双击“CSV文件输入”控件,进入“CSV文件输入”界面单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv单击“获取字段”按钮Kettle会自动检索CSV文件,并对文件中的字型、格式、长度精度等...

2021-10-19 20:59:05 460

原创 数据清洗第四章—CSV文件和JSON文件的抽取

目录一、抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。1)打开Kettle工具,创建转换2)配置“CSV文件输入”控件3) 配置“表输出"控件4) 运行转换csv_extract5) 查看数据表csv中的数据二、抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中。1)打开Kettie工具,创建转换2)配置JSON input控件3)配置“表输出”控件...

2021-10-06 11:03:31 419

原创 数据清洗第三章(kettle工具的使用)转换和作业实例

一.转换实例1、数据准备在SQLyog中创建一个数据库,并在该数据库中导入两张数据表,即数据表personal_a和数据表personal_b。导入过程如下图数据表personal_a和personal_b如下图所示。表personal_a表personal_b2、打开kettle工具,创建转换创建转换LCT,并添加“表输入”控件、“JavaScript代码”控件、“插入/更新”控件以及跳连接线,如下图。3、配置“表输入”控件点击表输入控件,进入表输入界面..

2021-09-26 20:22:17 838

原创 《数据清洗》第一章——数据清洗概述学习笔记

学习目标1、了解数据清洗的背景2、了解数据清洗的定义3、熟悉数据清洗的原理4、掌握数据清洗的具体流程5、了解常见数据清洗的策略和方法1.1数据清洗的背景 当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbage in,garbage out)”如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得...

2021-09-10 17:58:50 650

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除