- 博客(10)
- 收藏
- 关注
原创 黑马程序员《数据清洗》学习笔记第八章综合案例(3)
第八章综合案例(3)案例【8.3.7 8.3.8】 需要从MySQL官网下载数据库sakila的建库脚本,若是在Windows环境下安装数据库sakila,下载名称为sakila_bd.zip的压缩包文件;若是在Linux环境下安装数据库sakila,下载名称为sakila_bd.tar.gz的压缩包。需要导入压缩包中的文件,下载MySQL关系型数据库,SQLyog工具。8.3.7加载演员数据至演员维度表1.打开Kettle工具,创建转换...
2021-11-21 22:34:25 4913
原创 黑马程序员《数据清洗》学习笔记第八章综合案例(2)
第八章综合案例(1)案例【8.3.5 8.3.6】 需要从MySQL官网下载数据库sakila的建库脚本,若是在Windows环境下安装数据库sakila,下载名称为sakila_bd.zip的压缩包文件;若是在Linux环境下安装数据库sakila,下载名称为sakila_bd.tar.gz的压缩包。需要导入压缩包中的文件,下载MySQL关系型数据库,SQLyog工具。————————————————版权声明:本文为CSDN博主「眨个眼就睡...
2021-11-21 20:25:23 4223
原创 黑马程序员《数据清洗》学习笔记第八章综合案例(1)
第八章综合案例(1)案例【8.3.28.3.38.3.4】8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换 打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线,如图8-1。图 8-12.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面;在“限制”处...
2021-11-21 00:01:52 5739
原创 黑马程序员《数据清洗》学习笔记部分控件内容
目录kettle工具部分控件操作一、Excel输入二、生成记录三、生成随机数四、获取系统信息五、排序记录六、去除重复记录七、替换NULL值kettle工具部分控件操作一、Excel输入新建转换,添加一个“Excel输入”控件,双击打开“Excel输入”控件界面,点击“浏览”按钮选择需要进行数据抽取的Excel文件,选择完毕后点击“浏览”按钮左侧的“增加”按钮将文件选中,如图1-1;在“工作表”选项卡点击“获取工作表名称”,操作如图1-2;在“字...
2021-11-04 22:46:35 355
原创 黑马程序员《数据清洗》学习笔记第七章数据加载
目录7.1 数据加载课后题操作题一操作题二7.1 数据加载数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。数据的加载机制:全量加载、增量加载。全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。课...
2021-11-03 23:09:23 1412
原创 黑马程序员《数据清洗》学习笔记第六章数据转换操作题
操作题: 实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连...
2021-10-28 21:33:52 525
原创 黑马程序员《数据清洗》学习笔记数据清洗与检验部分内容
目录第五章 数据清洗与检验5.1 数据去重5.1.1 完全去重5.1.2 不完全去重5.2 缺失值处理5.2.1 缺失值清洗策略5.2.2去除缺失值5.2.3 填充缺失值本章习题第五章 数据清洗与检验 常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作。5.1 数据去重 数据去重又称重复数据的删除,找出数据文件中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。数据去重方法分为完全去重和不完...
2021-10-15 16:43:08 1372
原创 黑马程序员《数据清洗》学习笔记CSV、JSON数据抽取
4.1 抽取文本数据4.1.1 CSV文件的抽取 CSV是Comma-Separated Values的缩写,即逗号分隔符。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符替代逗号实现分隔,因此也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据 (数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++、等文本编译器打开,从而对文件进行查看、编辑等操作。 CSV作为数据转存的...
2021-10-02 10:57:45 1104
原创 黑马程序员《数据清洗》学习笔记kettle
3.1 Kettle3.1.1Kettle概述Kettle是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间数据的迁移。Kettle工具主要由4个组件组成,分别是SpoonPan、Kitchen及Carte组件,具体功能介绍如下。.Spoon是Kettle的集成开发环境,它会提供一个基于SWT的图形用户界面,主要用于构建ETLJobs(作业)和Transfor...
2021-09-17 20:29:49 638
原创 黑马程序员《数据清洗》学习笔记第一章
目录第一章 数据清洗概述1.1 数据清洗的背景1.1.1 数据质量概述1.1.2 数据质量的评价指标1.1.3 数据质量的问题分类1.2 数据清洗的定义1.3 数据清洗的原理1.4 数据清洗的基本流程1.5 数据清洗的策略1.6 常见的数据清洗方式第一章 数据清洗概述由于数据来源广泛,数据类型复杂,存在不完整、重复以及错误的数据,直接使用这些原始数据会严重影响数据决策的准确性和效率。故而,对原始数据进行有效的清晰是...
2021-09-10 15:14:29 979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人