自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 加载用户维度表与商店维度表

一、加载用户数据至用户维度表1.打开Kettle工具,创建转换2.配置表输入控件

2021-11-11 23:04:51 1562

原创 加载演员维度表和电影维度表

一、加载演员维度表1.打开kettle工具,创建转换。2.配置“表输入”控件3.配置“表输入2”控件4.配置“插入/更新”控件5.运行该转换。6.查看数据二。电影维度表1.打开Kettle工具,创建转换。2.配置表输入控件3.配置表输入2控件4.配置数据库查询控件5.配置数据库查询2控件6.配置值映射控件7.配置列拆分为多行控件...

2021-11-11 22:40:29 1097 2

原创 数据清洗第八章学习笔记

一、加载日期数据至日期维度表1.打开kettle创建一个转换并命名。添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”控件。2.配置“生成记录”控件。3.配置“增加序列”。4.配置“JavaScrip代码”5.配置“表输出” 控件6.运行7。打开SQLyog查看表二、加载时间数据至时间维度表1.打开kettle创建一个新的转换2.进入“生成记录”配置3.进入“增加序列”的配...

2021-11-05 23:22:21 437

原创 kettle工具实现数据清洗

一、Excel的输入1.将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。2.配置Excel表控件二、生成记录1.新建转换,打开“生成记录”控件。2.限制处输入记录内容。3.运行并查看和数据三、生成随机数1.新建一个转换,并拖出“生成随机数”控件。2.配置控件3.批量生成随机数4. 进入“生成记录”空间配置5.配置“生成随...

2021-10-30 20:20:00 3461

原创 用kettle实现数据的加载机制

一、全量加载1.打开kettle创建一个转换。并命名为full_load。并添加“执行SQL脚本”,“表输入”和“表输出”控件,建立hop跳连接线。2.配置“执行SQL脚本”控件3 .配置“表输入”控件4.配置表输出控件5.运行转换二、增量加载1. 创建一个转换。2、配置“表输入”控件3、配置“插入/更新”控件4.修改数据字段5.运行该转换。6.打开SQLy...

2021-10-21 21:11:48 167

原创 kettle工具实现数据的颗粒度转换以及珊瑚橘商务规划计算

(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization。2.配置文本文件输入控件4.配置排序记录控件5.配置表输入控件6.配置记录集连接控件7.配置字段选择2控件8.配置排序记录3控件9.配置表输入2控件10. 配置排序记录4控件11.配置记录集连接2控件12.配置字段选择3控件13.配置表输出控件14.打开Kettle工具,新建转换...

2021-10-21 21:07:25 179

原创 通过kettle工具,实现以下功能:(1)对文件merge.csv进行完全去重。(2)对文件people_survey.txt中的缺失值进行填充。

3、配置“过滤记录”控件文件的完全去重1.添加"CSV文件输入”和“唯一行(哈希值)”控件,新建一个转换。2.配置“csv文件输入”控件单击“预览”按钮,查看csv文件merge.csv的数据是否加载到csv文件输入流中。3、配置“唯一行(哈希值)”控件4、运行转换完全去重单击“Preview data”查看是否消除所要处理文件中完全重复的数据缺失值填充1.打开kettle工具,创建转换2.配置“文本文件输入”点击”内容...

2021-10-13 12:00:18 321

原创 kettle工具抽取CSV文件和json文件

一、CSV文件抽取1、新建转换①打开kettle点击“文件”→“新建”→“转换”创建一个转换。②点击“文件”→“保存”给转换命名为csv_extract。③添加“csv文件输入”和“表输入”,再建立节点连接。2、配置CSV控件①双击“csv文件输入”进入界面。②点击“浏览”选择需要抽取的文件,点击“获取字段”,自动检索csv文件,点击“预览”查看文件csv_extract.csv文件是否抽取到csv文件输入流中。3.数据库连接配置4.表输出控件配置5...

2021-10-08 02:04:38 266

原创 《数据清洗》——kettle基本工具的使用

转换的基本概念及操作一个数据抽取主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取操作可以通过kettle工具完成,也可以通过编写程序调用的方式实现。转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数

2021-09-17 17:55:27 1275

原创 数据清洗 第一章

数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据 仓库领域、数据挖掘领域以及数据质量管理领域。一.数据质量的特点:“业务需求”会随时间变化,数据质量也会随时间变化。数据质量可以借助信息系统度量,但独立于信息系统存在。 数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。二...

2021-09-11 17:46:56 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除