- 博客(15)
- 收藏
- 关注
原创 第二章例子
1.Excel输入(1) 建立【Excel输入】转换工程。(2) 设置【表输入】组件参数。(3) 预览数据。2.生成记录(1) 建立【生成记录】转换工程。创建【生成记录】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成记录】组件,并拖曳到右边工作区中,如图所示。(2) 设置【生成记录】组件参数。(3) 预览结果数据。三、生成随机数(1) 建立【生成随机数】转换工程。(2) 设置【生成随机数】组件参数。...
2021-11-19 17:01:10
128
原创 《数据清洗》第六章课后操作题
(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图6-1所示。(2)配置文本文件输入控件双击图6-1中的“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data.txt文件;单击【增加】按钮,将要抽取的personnel_data.txt文件添加到generalization转换
2021-11-19 10:31:45
519
1
原创 《数据清洗》综合案例3
8.3.5 加载用户数据至用户维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写用于获取字段customer_last_update中.
2021-11-17 18:59:45
466
原创 《数据清洗》综合案例8.3.5-8.3.6
8.3.5 加载用户数据至用户维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写用于获取字段customer_last_update中.
2021-11-16 22:02:25
319
原创 第八章例子
8.3.2加载日期数据至日期维度表1.打开kettle工具,创建转换打开Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置“生成记录”控件双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、in.
2021-11-10 21:08:11
1527
原创 第七章-数据加载操作题
1.打开kettle工具,创建转换图7-1 创建转换full_load2.配置“执行SQL脚本”控件双击图7-1中的“执行SQL脚本”控件,进入该界面。图7-2 “执行SQL语句”界面单击“新建”按钮,配置数据库连接,配置完成后点击“确认”按钮。图7-3 MySQL数据库连接配置在图7-2的SQL框中编写删除数据表full_target中数据的SQL语句图7-4 编写SQL语句在图7-4 单击“确定”按钮,完成“执行SQL脚本”配置。3.配置“表输入...
2021-11-09 20:45:51
742
原创 Mysql安装与配置
下载地址https://dev.mysql.com/downloads/下载第一个即可选择解压安装包在解压目录下新建一个my.ini文件然后[mysql]# 设置mysql客户端默认字符集default-character-set=utf8[mysqld]# 设置3306端口port = 3306# 设置mysql的安装目录basedir=D:\Program Files\Mysql\mysql-8.0.27-winx64 ...
2021-11-03 16:40:52
50
原创 第六章 数据转换
1.对文本文件personal_data.txt中的数据进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。
2021-10-27 10:25:56
183
原创 第四章 数据抽取作业
1.csv文件的抽取1.打开Kettle工具,创建转换2.配置“csv文件输入”控件3.配置“表输出”控件4.运行转换csv_extract5.查看数据表csv中的数据2.JSON文件的数据抽取1.打开Kettle工具,创建转换2.配置JSON input 控件3.配置“表输出”控件4.运行转换json_extract...
2021-10-10 15:54:43
109
原创 第一章 数据清洗概述学习笔记
1.1 数据清洗的背景1.1.1 数据质量概述1.1.2 数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁性以及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。从数据的实际效用上讲,适用性才是评价数据质量的核心准则。1.1.3 数据质量的问题分类数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。 1.基于数据源的“脏”数据分类 2.基于清洗的“脏”数据分类1.2 数据清洗的定义..
2021-09-12 09:44:31
449
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人