- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 第8章8.3.7;8.3.8
一、通过Kettle工具加载演员数据至演员维度表dim_actor。1.使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。2.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。3.在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临
2021-12-11 21:56:57 170
原创 第8章8.3.5;8.3.6
一、通过Kettle工具加载用户数据至用户维度表dim_customer。1.通过Kettle工具加载用户数据至用户维度表dim_customer。2.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。3.在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_upda
2021-12-11 21:35:40 174
原创 第8章8.3.2;8.3.3;8.3.4
一、通过Kettle工具加载日期数据至dim_date日期维度表。1.使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.双击“生成记录”控件,进入“生成记录”配置界面。3.在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始
2021-12-11 21:13:26 188
原创 第七章操作题
一、现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如图所示。通过kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线,具体如图所示。2.双击“执行
2021-12-11 20:42:53 107
原创 第二章6个案例
一.Excel1.创建转换,控件:Excel输入2.配置Excel控件二.生成记录三.生成随机数1.生成记录控件2.配置生成记录控件批量生成记录配置生成随机数控件配置Excel控件四.记录系统信息五.排序记录1.创建转换,控件为Excel输入,排序记录2.配置Excel输入控件3.配置排序记录六.替换null值1.创建转换2.配置Excel输入3.配置替换null值控件结果为:...
2021-12-11 20:16:05 257
原创 第六章 作业答案
1.实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图1所示。图6-1
2021-12-06 10:42:36 77
原创 通过kettle工具实现数据清洗与转换(实例)
一、对文件merge.csv进行完全去重。1、使用Kettle工具创建转换repeat_transform,并添加“CSV文件输入“控件、”唯一行(哈希值)“控件以及Hop跳连接线。2、配置”CSV文件输入“控件。3.配置”唯一行(哈希值)“控件4、运行转换。二、对文件people_survey.txt中的缺失值进行填充。1、打开kettle工具,创建转换。2、配置文本文件输入控件。3、配置过滤记录控件。4、配置替换NULL值控件。5、配置合并记录控件。6、
2021-10-13 20:56:09 3511
原创 用Kettle工具抽取CSV文件和JSON文件
一、抽取CSV文件csv_extract.csv中的数据保存到数据库extract的数据表csv中。1.建立数据库extract并创建csv文件。2.通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线。3.双击“CSV文件输入”控件,进入“CSV文件输入”界面;单击【浏览】按钮,选择要抽取的文件csv_extract.csv;单击【获取字段】按钮,Kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分
2021-10-10 20:57:25 955
原创 转换与作业
一、转换1.双击 Kettle目录下的 Spoon.bat脚本,启动 Kettle I的图形化主界面,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换。2.选择“文件”→”保存“命令,重命名为example。3.在 Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”命令,并添加注释的内容;然后单击“输入”,将“表输入”拖曳到 Kettle的工作区;单击“输出”,将“文本文件输出”也拖曳到 Kettle I的工作区;按住Ctrl键的同时选中“表输入”和“文本文件输出
2021-10-10 19:06:49 123
原创 第一章 数据清洗概述
前言 近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。 由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1、数据清洗的背景 当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出( garbage in, g
2021-09-12 00:03:37 1408
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人