牛马不配流泪-CSDN博客

原创第8章8.3.7；8.3.8

一、通过Kettle工具加载演员数据至演员维度表dim_actor。1.使用Kettle工具，创建一个转换load_dim_actor，并添加表输入控件、插入/更新控件以及Hop跳连接线，具体如图所示。2.双击“表输入”控件，进入“表输入”配置界面，单击【新建】按钮，配置数据库连接，配置完成后单击【确认】按钮。MySQL数据库连接的配置，如图所示。3.在SQL框中编写SQL语句，用于获取字段actor_last_update中的最大值，将该值替换为”1970-01-01 00:00:00”并赋值给临

2021-12-11 21:56:57 170

原创第8章8.3.5；8.3.6

一、通过Kettle工具加载用户数据至用户维度表dim_customer。1.通过Kettle工具加载用户数据至用户维度表dim_customer。2.双击“表输入”控件，进入“表输入”配置界面，单击【新建】按钮，配置数据库连接，配置完成后单击【确认】按钮。MySQL数据库连接的配置，如图所示。3.在SQL框中编写用于获取字段customer_last_update中的最大值，将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_upda

2021-12-11 21:35:40 174

原创第8章8.3.2；8.3.3；8.3.4

一、通过Kettle工具加载日期数据至dim_date日期维度表。1.使用Kettle工具，创建一个转换load_dim_date，并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线，具体如图所示。2.双击“生成记录”控件，进入“生成记录”配置界面。3.在“限制”处添加生成的日期，默认为10，这里改为3650，即生成10年的日期（10*365）；在“字段”框添加字段language（语言）、country_code（国家码）、initial_date（初始

2021-12-11 21:13:26 188

原创第七章操作题

一、现有两张数据表，分别为数据表full_source和数据表full_target，其中数据表full_source为源数据表，数据表full_target为目标数据表。数据表full_source和full_target的内容如图所示。通过kettle工具，实现将数据表full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具，创建一个转换full_load，并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线，具体如图所示。2.双击“执行

2021-12-11 20:42:53 107

原创第二章6个案例

一.Excel1.创建转换，控件：Excel输入2.配置Excel控件二.生成记录三.生成随机数1.生成记录控件2.配置生成记录控件批量生成记录配置生成随机数控件配置Excel控件四.记录系统信息五.排序记录1.创建转换，控件为Excel输入，排序记录2.配置Excel输入控件3.配置排序记录六.替换null值1.创建转换2.配置Excel输入3.配置替换null值控件结果为：...

2021-12-11 20:16:05 257

原创第六章作业答案

1.实现对文本文件personnel_data.txt中的数据进行数据粒度的转换，即将文本文件personnel_data.txt中字段为household_register的数据统一成省份（直辖市），并输出到文本文件personnel_data_new.txt中。（1）打开Kettle工具，新建转换使用Kettle工具，创建一个转换generalization，并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线，具体效果如图1所示。图6-1

2021-12-06 10:42:36 77

原创通过kettle工具实现数据清洗与转换（实例）

一、对文件merge.csv进行完全去重。1、使用Kettle工具创建转换repeat_transform，并添加“CSV文件输入“控件、”唯一行（哈希值）“控件以及Hop跳连接线。2、配置”CSV文件输入“控件。3.配置”唯一行（哈希值）“控件4、运行转换。二、对文件people_survey.txt中的缺失值进行填充。1、打开kettle工具，创建转换。2、配置文本文件输入控件。3、配置过滤记录控件。4、配置替换NULL值控件。5、配置合并记录控件。6、

2021-10-13 20:56:09 3511

原创用Kettle工具抽取CSV文件和JSON文件

一、抽取CSV文件csv_extract.csv中的数据保存到数据库extract的数据表csv中。1.建立数据库extract并创建csv文件。2.通过使用Kettle工具，创建一个转换csv_extract，并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线。3.双击“CSV文件输入”控件，进入“CSV文件输入”界面；单击【浏览】按钮，选择要抽取的文件csv_extract.csv；单击【获取字段】按钮，Kettle自动检索CSV文件，并对文件中的字段类型、格式、长度、精度等属性进行分

2021-10-10 20:57:25 955

原创转换与作业

一、转换1.双击 Kettle目录下的 Spoon.bat脚本，启动 Kettle I的图形化主界面，在工具栏处选择“文件”→“新建”→“转换”命令，创建一个转换。2.选择“文件”→”保存“命令，重命名为example。3.在 Kettle主界面的工作区右击空白处，从弹出的快捷菜单中选择“新建注释”命令，并添加注释的内容；然后单击“输入”，将“表输入”拖曳到 Kettle的工作区；单击“输出”，将“文本文件输出”也拖曳到 Kettle I的工作区；按住Ctrl键的同时选中“表输入”和“文本文件输出

2021-10-10 19:06:49 123

原创第一章数据清洗概述

前言近年来，大数据技术掀起了计算机领域的一个新浪潮，无论是数据挖掘、数据分析、数据可视化，还是机器学习、人工智能，它们都绕不开“数据”这个主题。由于海量数据的来源是广泛的，数据类型也是多而繁杂的，因此数据中会夹杂着不完整、重复以及错误的数据，如果直接使用这些原始数据，会严重影响数据决策的准确性和效率。因此，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1、数据清洗的背景当今时代，企业信息化的要求越来越迫切。对于企业的决策者来说，正所谓“垃圾进垃圾出( garbage in, g

2021-09-12 00:03:37 1408

qq_46602903的博客