- 博客(11)
- 收藏
- 关注
原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——作业(4)
8.3.9 加载租赁数据至租赁事实表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_fact_rental,并添加表输入控件、字段选择控件、过滤记录控件、计算器控件、增加常量控件、数据库查询控件、维度查询/更新控件、插入/更新控件以及Hop跳连接线,如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示:在SQL框中编写SQL语句,用于获取字段ren
2021-11-17 11:16:37 1174
原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——作业(3)
8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示:2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示:在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:0
2021-11-17 10:49:21 350
原创 第八章作业(2)
一、加载用户数据至用户维度表1.使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线。2.配置“表输入”控件连接数据库在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临时字段max_dim_customer_l
2021-11-15 17:57:05 248
原创 数据清洗黑马程序员 第八章综合案例--笔记
8.3 案例实现8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)
2021-11-15 17:37:08 472
原创 第七章作业
7.1 数据加载机制数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。7.1.1 全量加载案例实现数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。1.打开Kettle工具,创建
2021-11-08 16:01:38 165
原创 ETL数据整合与处理——实例(笔记)
一.Excel输入1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图所示[2.配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮;单击“工作表”选项卡,获取工作表;单击“字段”选项卡,添加字段,如图所示:3.运行转换单击转换工作区顶部按钮,运行创建的转换,如图所示:二.生成记录1.打开Kettle工具,创建转换使用Kettle工具,创建
2021-11-01 20:32:58 795
原创 第六章操作题
本章习题——操作题现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary,具体内容如图所示:通过使用Kettle工具,实现以下功能:(1)对文本文件personnel_data.txt中的数据进行数据粒度的转换,将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt 中。1.打开Kettle工
2021-11-01 16:12:38 472 4
原创 《数据清洗》黑马程序员 第五章课后作业
四.操作题通过Kettle工具,实现以下功能1.对merge.csv文件进行完全去重(1)通过使用Kettle工具,创建一个转换transformation,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。(2)双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。(
2021-10-11 18:36:22 1285
原创 《数据清洗》第四章 数据抽取笔记
一.XML文件的数据抽取通过Kettle工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。1.准备数据准备一个XML,文件名为xml_extract.xml 。2.通过使用Kettle工具,创建一个转换转换xml,并添加“Get data from XML”控件、“表输出”控件以及Hop跳连接线,具体如图所示。3.双击“Get data from XML”控件,进入“XML文件输入”界面。单击【浏览】按钮,选择要抽取的XML文件xml_extr
2021-09-27 17:39:01 680
原创 《数据清洗》(黑马程序员/编著)kettle转换作业案例 (第三章 Kettle工具的基本使用)
3.1 Kettle简介3.1.1 Kettle 概述Kettle 是一款国外免费开源的较轻量级ETL工具,是基于Java语言开发的,可以在Windows,Linux,UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间数据的迁移。Kettle 工具主要由4个组件组成,分别是Spoon,Pan,Kitchen,Carte组件,具体功能介绍如下。(1)Spoon是Kettle的集成开发环境,它会提供一个基于SWT的图形用户界面,主要用于构建ETL Job(作业)和Transformation
2021-09-20 21:41:55 1332
原创 《数据清洗》(黑马程序员/编著)读书笔记1
一.数据清洗概述1.1.1数据清洗的背景 (1)数据质量的显著特点: <1>“业务需求”会随着时间变化,数据质量也会随时间发生变化。 <2>数据质量可以借助信息系统度量,但独立于信息系统存在。 <3>数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。 (2)数据质量的评价指标 <1>准确性 ...
2021-09-10 18:51:12 452
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人