自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 数据整合与处理

1.打开Kettle工具,创建转换:使用Kettle工具,创建一个转换,并添加Excel输入控件2.配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮,具体效果如图2所示;单击“工作表”选项卡,获取工作表,如图3所示;单击“字段”选项卡,添加字段,如图3.运行转换单击转换工作区顶部的 按钮,运行创建的转换2.生成记录1.打开Kettle工具,创建转换...

2021-11-11 21:30:06 322

原创 数据清洗第八章练习笔记

一、加载日期数据至日期维度表1.打开kettle创建转换并命名,添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”2.配置“生成记录”控件。双击进入控件的配置,在限制处输入3650,字段处按下图输入3.配置“增加序列”,双击进入该控件进行配置。“值的名称”处改为DaySequenc。“起始值”改为0.4.双击进入“JavaScrip代码”,勾选“兼容模式”,输入相应代码5.双击进入“表输出” 控件。先配置数据库。在选择输出的表,然后输入映...

2021-11-06 15:58:00 197

原创 kettle案例13-替换NULL

在Kettle转换过程中,默认情况下,会将空值当做NULL值处理。如果数据类型字段出现NULL值,那么在计算时就会出现错误。在“2019年11月月考英语成绩.xls”文件中,学号为“201709007”的同学没有参加考试,根据规定考试分数将按0分处理,需要使用【替换NULL值】组件,使用“0”替换该同学的英语考试分数。...

2021-10-30 20:41:58 1518

原创 kettle案例12-去除重复记录

由于输入或其他错误,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。重复记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】控件,去除这些重复的数据。...

2021-10-30 20:33:31 668

原创 kettle案例11-排序记录

排序是对数据中心的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。执行结果:...

2021-10-28 20:22:11 241

原创 kettle案例10-获取系统信息

系统信息是指Kettle系统环境的信息,包括计算机系统的日期,星期等时间类型的信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等。为方便读取计算机上到本月最后一天的交易数据问价,需要通过获取系统信息,获得当月最后一天的时间,以及当前计算机名称与IP地址等系统信息。1.名称:表示字段名称2.类型:表示获取系统信息的类型,单击输入框,弹出【选择数据类型】对话框,选中以下类型(因类型浅显易懂,且内容较多,只列出类型所属归类)①时间类:包括现在、以前和将来时间,以及特定..

2021-10-28 20:10:00 439 1

原创 kettle案例9-生成随机数

在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。

2021-10-28 19:51:00 737

原创 kettle案例8-生成记录

在数据统计中,往往要生成固定行数和列数的记录,用于存放统计总数。为方便记录1~12月份商店的销售总额,需要通过生成记录,生成一个月销售总额的数据表。包括商品名称和销售总额两个字段,记录销售的商品和当月商品统计销售总额。...

2021-10-28 11:46:28 324

原创 kettle案例7-Excel输入

把这些数据拷贝到excel表格中,生成一个文件,“物理成绩.xls”

2021-10-28 11:36:08 155

原创 使用kettle工具实现全量加载

1.使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线,具体如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,具体如图所示:3.配置执行SQL脚本控件单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置;在SQL框中编写删除数据表full_target中数据的SQL..

2021-10-21 11:42:39 350

原创 实现数据的颗粒度转换

实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果下图所示:(2)

2021-10-20 22:31:31 620

原创 使用kettle工具实现数据的完全去重与缺失值的完全填充

一.文件的完全去重1.创建一个转换repeat_transform,具体效果如下体所示:2.配置csv文件控件,双击进入csv文件配置界面,单击“浏览”选择要进行完全去重的文件单击上图中的“获取字段”kettle会自动检索csv文件,并对文件中的字段类型,格式,长度,精度等属性进行分析,具体如下图所示:从上图可以看出,csv文件merge.csv的数据已经成功抽取到csv文件输入流中,单击“关闭”-“确定”按钮完成csv文件控件的配置。3.配置“唯一行(哈希值)控件”双击..

2021-10-11 16:19:24 1340

原创 kettle工具练习

一.抽取CSV文件csv.extract.csv中的数据保存至数据库extract中的数据表csv中。1.打开kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如下图所示:2.配置CSV文件输入控件,具体操作如下图所示: 获取字段 ...

2021-09-28 19:43:41 913

原创 Kettle工具的基本使用

2.1 Kettle简介 2.1.1 Kettle概述Kettle是国外免费的开源轻量级ETL工具,是基于Java语言开发的,可以在Windows.Linux,UNIX系统上运行,且绿色不需安装,可用于各种数据库之间的连接。Kettle工具主要有四个组件组成,分别是Spoon,Pan,Kitchen以及Carte组件,具体功能如下: *Spoon为集成开发软件,用于构建作业和转换,执行或调试作业和转换,还可以用于监控ETL操作性能。 *Pan以命令行形式执行Spoon生成的转...

2021-09-15 20:18:39 3656

原创 数据清洗概述

一 数据清洗背景企业信息化的要求越来越迫切,而作为决策支持的数据仓库的数据可能达不到要求,所以我们需要对数据仓库中的数据进行清洗,得出可靠数据,用以支持企业战略决策。二 数据清洗相关定义*数据清洗是提高数据质量的有效方法*数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。注:数据清洗的目的是解决“脏”数据问题,而不是将“脏”数据洗掉,是洗”干净“。1.数据质量1.1 数据质量是指在业务环境下,数据符合消费者的使用目的,能满足业务场景具体需求的程度。1.2 数...

2021-09-08 22:53:01 664

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除