自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 8.3.7-8.3.8案例

8.3.7加载演员数据至演员维度表1.创建转换使用Kettle工具,创建一个转换,并添加表输入控件、插入/更新控件以及Hop跳连接线。2.配置“表输入”控件.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_last_update;单击“...

2021-11-15 20:18:39 175

原创 8.3.5-8.3.6案例

8.3.5加载用户数据至用户维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线。2.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置。在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1..

2021-11-15 19:13:12 125

原创 第七章操作题

一.全量加载现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。1.创建转换使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。2.配置执行SQL脚本控件单击【新建】按.

2021-11-08 16:09:15 103

原创 第二章六个例子

一、Excel输入1.建立转换建立转换,建立Excal输入控件。2.设置参数双击Excel输入控件进入其配置界面,单击‘浏览’按钮选择Excel文件,并单击‘增加’按钮将其加入到“选中的文件”中,(可同时添加多个文件)。3.设置工作表单击【工作表】选项卡,单击‘获取工作表名称’按钮,在弹出的窗口中单击选中可用的项目,单击‘>’将该项目由左边移到右边,点击确定。设置选中的工作表参数。单击【确定】按钮,将【你的选择】列表选中的“Sheet1”工作表添加至...

2021-11-08 10:56:37 94

原创 第八章数据仓库例子

一、加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置“生成记录”控件双击“生成记录”控件,进入“生成记录”。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_da

2021-11-07 18:44:00 816

原创 第六章数据粒度的转换作业

通过使用Kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt 中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线

2021-11-01 11:42:32 244

原创 作业:Kettle:数据去重与缺失值处理

题目:(1)对文件merge.csv进行完全去重 (2)对文件people_survey,txt.中的缺失值进行填充1.对文件merge.csv进行完全去重 完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。(1)打开Kettle工具,新建转换使用Kettle工具创建一个转换,并添加“CSV文件输入”、“唯一行(哈希值)”控件以及Hop跳连接线结果如图:(2)配置CSV文件输入控件点击“...

2021-10-15 00:00:33 766

原创 第四章作业+控件总结

一、作业:通过Kettle工具,实现以下功能:(1)抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。(2)抽取JSON文件jaon_extract.js中的数据保存至数据库extract中的数据表jaon中。(1)抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。1.打开kettle的运行窗口 -> 点击新建 ->点击转换2.左侧对话框中找到表输出,点击输入->点击-.

2021-10-08 00:13:12 82

原创 转换和作业例子

1.转换例子 转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。 下面是转换的例子: 双击Kettle目录下的Spoon.bat脚本,启动...

2021-09-21 16:42:46 161

原创 笔记——第1章 数据清洗概述

由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1 数据清洗的背景1.1.1 数据质量概述 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。但是,在不同的业务场景中,数据消费者对数据量有各自不同的观点,具体如下:● 对于一个邮件列表的管理员来说,数据质...

2021-09-12 17:53:45 1296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除