自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第七章作业

一、全量加载1.新建一个转换,并添加“执行SQL脚本”、“表输入”、“表输出”控件配置“执行SQL脚本” 控件3.配置"表输入"控件4.配置“表输出”控件二、增量加载1.新建一个转换,并添加“表输入”、“插入/更新”控件...

2021-12-11 20:42:22 256

原创 第八章第一次作业

一、加载日期数据至日期维度表1.新建一个转换,并添加“生成记录”、“增加序列”、“JavaScript代码”、“表输出”控件2.配置“生成记录”控件二、加载时间数据至时间维度表1.新建一个转换,并添加相关控件2.配置“生成记录”控件三、加载员工数据至员工维度表1.新建一个转换,并添加相关控件...

2021-12-11 20:34:15 450

原创 第八章第二次

一、加载用户数据至用户维度表1.使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线。2.配置“表输入”控件连接数据库在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临时字段max_dim_customer

2021-12-11 20:22:54 97

原创 第八章第三次作业

一、加载演员数据至演员维度表1.新建一个转换,并添加“表输入”、“表输入2”、“插入/更新”控件2.配置“表输入”控件连接数据库在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,查看临时字段max_dim_actor_last_update是否将默认值设置为“1970-01-01 00:00:00”3...

2021-12-11 20:05:12 105

原创 第六章操作题

实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图1所示。(2.

2021-11-22 21:04:16 75

原创 Kettle的6个实例

一、Excel输入1、新建一个转换,并添加“Excel输入”控件2、配置“Excel输入”控件3、运行转换二、生成记录1、添加“生成记录”控件2、配置控件3、运行转换三、生成随机数1、添加控件2、配置控件3、运行转换四、获取系统信息1、添加控件2.配置控件3、运行转换五、去除重复1、添加控件2、配置控件(1)配置“Excel输入”控件(2...

2021-11-19 22:16:57 543

原创 数据的清洗与检验

一、对文件进行去重1、通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。2、双击“CSV文件输入”控件,进入“CSV文件输入”配置界面单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。3、双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”.

2021-10-19 17:42:54 232

原创 kettle工具的简单使用

1.使用kettle抽取CSV文件通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。(1)、创建一个转换 通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。(2)、配置CSV输入插件双击“CSV文件输入”控件,进入“CSV文件输入”界面。完成配置。单击【浏览】按钮,选择要抽取的文件csv_extract.c...

2021-10-10 19:11:24 886

原创 阅读笔记二 (kettle工具实现作业和转换)

一、转换 转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,例如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳来连接的,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。创建转换:创建好的转换是这样的简单的转换的例子(1)、步骤 步骤是...

2021-09-29 10:42:26 748

原创 2021-09-11

数据清洗前言近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能、都离不开数据这个主题。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。一、数据清洗的背景1.1、数据质量概述 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。数据质量的显著特点:“业务需求”会随时间变化,数据质量也会随时间发生变化 数据质量可以借助信息系统度量,但独立于信息系统的存在。 数据...

2021-09-11 23:01:52 6010

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除