数据清洗
文章平均质量分 68
椰澡
这个作者很懒,什么都没留下…
展开
-
《数据清洗》期末考试模拟题
《数据清洗》期末考试模拟题,选择,判断,填空,简答。原创 2021-11-21 10:12:48 · 4890 阅读 · 0 评论 -
第二章例子
1.Excel输入(1) 建立【Excel输入】转换工程。(2) 设置【表输入】组件参数。(3) 预览数据。2.生成记录(1) 建立【生成记录】转换工程。创建【生成记录】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成记录】组件,并拖曳到右边工作区中,如图所示。(2) 设置【生成记录】组件参数。(3) 预览结果数据。三、生成随机数(1) 建立【生成随机数】转换工程。(2) 设置【生成随机数】组件参数。...原创 2021-11-19 17:01:10 · 164 阅读 · 0 评论 -
《数据清洗》第六章课后操作题
(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图6-1所示。(2)配置文本文件输入控件双击图6-1中的“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,选择要抽取personnel_data.txt文件;单击【增加】按钮,将要抽取的personnel_data.txt文件添加到generalization转换原创 2021-11-19 10:31:45 · 578 阅读 · 1 评论 -
第四章 数据抽取作业
1.csv文件的抽取1.打开Kettle工具,创建转换2.配置“csv文件输入”控件3.配置“表输出”控件4.运行转换csv_extract5.查看数据表csv中的数据2.JSON文件的数据抽取1.打开Kettle工具,创建转换2.配置JSON input 控件3.配置“表输出”控件4.运行转换json_extract...原创 2021-10-10 15:54:43 · 145 阅读 · 0 评论 -
kettle案例1-计算器生成时间维度数据
原创 2021-11-17 19:04:21 · 328 阅读 · 0 评论 -
《数据清洗》综合案例3
8.3.5 加载用户数据至用户维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写用于获取字段customer_last_update中.原创 2021-11-17 18:59:45 · 517 阅读 · 0 评论 -
《数据清洗》综合案例8.3.5-8.3.6
8.3.5 加载用户数据至用户维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写用于获取字段customer_last_update中.原创 2021-11-16 22:02:25 · 364 阅读 · 0 评论 -
第八章例子
8.3.2加载日期数据至日期维度表1.打开kettle工具,创建转换打开Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置“生成记录”控件双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、in.原创 2021-11-10 21:08:11 · 1548 阅读 · 0 评论 -
第七章-数据加载操作题
1.打开kettle工具,创建转换图7-1 创建转换full_load2.配置“执行SQL脚本”控件双击图7-1中的“执行SQL脚本”控件,进入该界面。图7-2 “执行SQL语句”界面单击“新建”按钮,配置数据库连接,配置完成后点击“确认”按钮。图7-3 MySQL数据库连接配置在图7-2的SQL框中编写删除数据表full_target中数据的SQL语句图7-4 编写SQL语句在图7-4 单击“确定”按钮,完成“执行SQL脚本”配置。3.配置“表输入...原创 2021-11-09 20:45:51 · 763 阅读 · 0 评论 -
第六章 数据转换
1.对文本文件personal_data.txt中的数据进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。原创 2021-10-27 10:25:56 · 201 阅读 · 0 评论 -
第五章 数据清洗与检验
2对文件people_survey.txt中的缺失值进行填充原创 2021-10-13 11:58:29 · 132 阅读 · 0 评论 -
第三章 kettle工具的基本使用学习笔记
一个简单的作业例子对作业项进行重命名原创 2021-09-29 10:55:32 · 242 阅读 · 0 评论 -
第一章 数据清洗概述学习笔记
1.1 数据清洗的背景1.1.1 数据质量概述1.1.2 数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁性以及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。从数据的实际效用上讲,适用性才是评价数据质量的核心准则。1.1.3 数据质量的问题分类数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。 1.基于数据源的“脏”数据分类 2.基于清洗的“脏”数据分类1.2 数据清洗的定义..原创 2021-09-12 09:44:31 · 484 阅读 · 0 评论