自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——作业(4)

8.3.9 加载租赁数据至租赁事实表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_fact_rental,并添加表输入控件、字段选择控件、过滤记录控件、计算器控件、增加常量控件、数据库查询控件、维度查询/更新控件、插入/更新控件以及Hop跳连接线,如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示:在SQL框中编写SQL语句,用于获取字段ren

2021-11-17 11:16:37 1139

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——作业(3)

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示:在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:0

2021-11-17 10:49:21 331

原创 第八章作业(2)

一、加载用户数据至用户维度表1.使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线。2.配置“表输入”控件连接数据库在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临时字段max_dim_customer_l

2021-11-15 17:57:05 231

原创 数据清洗黑马程序员 第八章综合案例--笔记

8.3 案例实现8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)

2021-11-15 17:37:08 453

原创 第七章作业

7.1 数据加载机制数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。7.1.1 全量加载案例实现数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。1.打开Kettle工具,创建

2021-11-08 16:01:38 128

原创 ETL数据整合与处理——实例(笔记)

一.Excel输入1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图所示[2.配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮;单击“工作表”选项卡,获取工作表;单击“字段”选项卡,添加字段,如图所示:3.运行转换单击转换工作区顶部按钮,运行创建的转换,如图所示:二.生成记录1.打开Kettle工具,创建转换使用Kettle工具,创建

2021-11-01 20:32:58 775

原创 第六章操作题

本章习题——操作题现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary,具体内容如图所示:通过使用Kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt 中。1.打开Kettle工

2021-11-01 16:12:38 450 4

原创 《数据清洗》黑马程序员 第五章课后作业

四.操作题通过Kettle工具,实现以下功能1.对merge.csv文件进行完全去重(1)通过使用Kettle工具,创建一个转换transformation,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。(2)双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。(

2021-10-11 18:36:22 1227

原创 《数据清洗》第四章 数据抽取笔记

一.XML文件的数据抽取通过Kettle工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。1.准备数据准备一个XML,文件名为xml_extract.xml 。2.通过使用Kettle工具,创建一个转换转换xml,并添加“Get data from XML”控件、“表输出”控件以及Hop跳连接线,具体如图所示。3.双击“Get data from XML”控件,进入“XML文件输入”界面。单击【浏览】按钮,选择要抽取的XML文件xml_extr

2021-09-27 17:39:01 631

原创 《数据清洗》(黑马程序员/编著)kettle转换作业案例 (第三章 Kettle工具的基本使用)

3.1 Kettle简介3.1.1 Kettle 概述Kettle 是一款国外免费开源的较轻量级ETL工具,是基于Java语言开发的,可以在Windows,Linux,UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间数据的迁移。Kettle 工具主要由4个组件组成,分别是Spoon,Pan,Kitchen,Carte组件,具体功能介绍如下。(1)Spoon是Kettle的集成开发环境,它会提供一个基于SWT的图形用户界面,主要用于构建ETL Job(作业)和Transformation

2021-09-20 21:41:55 1302

原创 《数据清洗》(黑马程序员/编著)读书笔记1

一.数据清洗概述1.1.1数据清洗的背景 (1)数据质量的显著特点: <1>“业务需求”会随着时间变化,数据质量也会随时间发生变化。 <2>数据质量可以借助信息系统度量,但独立于信息系统存在。 <3>数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。 (2)数据质量的评价指标 <1>准确性 ...

2021-09-10 18:51:12 438

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除