自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【无标题】

8.3.7 加载演员数据至演员维度表 打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。 配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。 在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,

2021-11-22 19:00:10 140

原创 【无标题】

1、加载用户数据至用户维度表 打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。 配置“表输入”控件,进入“表输入”界面 单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮。 在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_customer_la

2021-11-22 17:09:50 106

原创 【无标题】

1、加载日期数据至日期维度表 打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。 配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。 配置“增加序列”控价,进入“增

2021-11-22 16:34:54 702

原创 2021-11-15

一.现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。 1.使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。 双击执行SQL脚本控件,进入执行SQL语句界面 2.配置数据库 SQL

2021-11-15 18:12:15 72

原创 2021-11-04

1、Excel输入 首先通过Excel建立一个.xls文件,向其中输入数据。 建立转换,建立Excal输入控件。 双击Excal输入控件,点击浏览选中excel文件,点击添加。 点击工作表,输入要读取得工作列表。 点击字段选项,点击获取来自头部数据的字段 2.生成记录 建立一个转换,建立生成记录控件。 双击打开生成记录控件,填加相关字段 预览记录 3.生成随机数 建立一个转换,添加生成随机数控件 双击随机数控件添加字段 点击确定退出后进行启动 4.获取系统信息 打开Kettle建立一个

2021-11-04 19:27:50 81

原创 2021-10-20

1、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。 打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。 配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要

2021-10-20 17:55:22 93

原创 2021-10-14

1.对文件merge.csv进行完全去重 打开Kettle工具创建转换,并添加“CSV文件输入“控件、”唯一行(哈希值)“控件以及Hop跳连接线。 配置“CSV文件输入”控件,进入“CSV文件输入”界面,双击“CSV文件输入”控件,进入“CSV文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv,单击“获取字段”按钮Kettle会自动检索CSV文件,并对文件中的字型、格式、长度精度等属性进行分析。 单击"预览”按钮,查看CSV文件merge. csv的数据是否加载到CS

2021-10-14 23:12:55 62

原创 2021-10-10

1.相关概念 转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,例如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳来连接的,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。 目前,大多数的ETL项目都需要完成各种各样的维护工作。例如,如何传送文件、验证数据库中的数据表是否存在等操作

2021-10-10 17:16:50 190

原创 2021-10-10

1.CSV文件的抽取* 打开Kettle工具创建一个csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop连接线,用来实现CSV文件数据的抽取功能。 双击“CSV文件输入”控件,进入“CSV文件输入”界面;单击【浏览】按钮,选择要抽取的文件csv_extract.csv;单击【获取字段】按钮,Kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。单击【预览】按钮,查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中。 双击“表输

2021-10-10 16:43:12 64

原创 第1章 数据清洗概述

1.1.1 数据清洗的背景 1.1.1 数据质量概述 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。 数据质量的特点: (1)“业务需求”会随着时间变化,数据质量也会随时间发生变化。 (2)数据质量可以借助信息系统来度量,但独立于信息系统而存在。 (3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。 1.1.2 数据质量的评价指标 数据质量评价的指标主要包括数据的准确性,完整性,简洁性和适用性,其中数据的准确性,完整性,简洁性是为了

2021-09-12 11:12:41 843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除