黑马程序员《数据清洗》学习笔
文章平均质量分 90
眨个眼就睡着
这个作者很懒,什么都没留下…
展开
-
黑马程序员《数据清洗》学习笔记第八章综合案例(3)
第八章综合案例(3) 案例【8.3.7 8.3.8】 需要从MySQL官网下载数据库sakila的建库脚本,若是在Windows环境下安装数据库sakila,下载名称为sakila_bd.zip的压缩包文件;若是在Linux环境下安装数据库sakila,下载名称为sakila_bd.tar.gz的压缩包。需要导入压缩包中的文件,下载MySQL关系型数据库,SQLyog工具。 8.3.7加载演员数据至演员维度表 1.打开Kettle工具,创建转换 ...原创 2021-11-21 22:34:25 · 4587 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记第八章综合案例(2)
第八章综合案例(1) 案例【8.3.5 8.3.6】 需要从MySQL官网下载数据库sakila的建库脚本,若是在Windows环境下安装数据库sakila,下载名称为sakila_bd.zip的压缩包文件;若是在Linux环境下安装数据库sakila,下载名称为sakila_bd.tar.gz的压缩包。需要导入压缩包中的文件,下载MySQL关系型数据库,SQLyog工具。 ———————————————— 版权声明:本文为CSDN博主「眨个眼就睡...原创 2021-11-21 20:25:23 · 3739 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记第八章综合案例(1)
第八章综合案例(1) 案例【8.3.28.3.38.3.4】 8.3.2 加载日期数据至日期维度表 1.打开Kettle工具,创建转换 打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线,如图8-1。 图 8-1 2.配置生成记录控件 双击“生成记录”控件,进入“生成记录”配置界面;在“限制”处...原创 2021-11-21 00:01:52 · 5197 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记部分控件内容
目录 kettle工具部分控件操作 一、Excel输入 二、生成记录 三、生成随机数 四、获取系统信息 五、排序记录 六、去除重复记录 七、替换NULL值 kettle工具部分控件操作 一、Excel输入 新建转换,添加一个“Excel输入”控件,双击打开“Excel输入”控件界面,点击“浏览”按钮选择需要进行数据抽取的Excel文件,选择完毕后点击“浏览”按钮左侧的“增加”按钮将文件选中,如图1-1;在“工作表”选项卡点击“获取工作表名称”,操作如图1-2;在“字...原创 2021-11-04 22:46:35 · 271 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记第七章数据加载
目录 7.1 数据加载 课后题 操作题一 操作题二 7.1 数据加载 数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。 数据的加载机制:全量加载、增量加载。全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。 课...原创 2021-11-03 23:09:23 · 1309 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记第六章数据转换操作题
操作题: 实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本personnel_data_new.txt中。 (1)打开Kettle工具,新建转换 使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连...原创 2021-10-28 21:33:52 · 495 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记数据清洗与检验部分内容
目录 第五章 数据清洗与检验 5.1 数据去重 5.1.1 完全去重 5.1.2 不完全去重 5.2 缺失值处理 5.2.1 缺失值清洗策略 5.2.2去除缺失值 5.2.3 填充缺失值 本章习题 第五章 数据清洗与检验 常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作。 5.1 数据去重 数据去重又称重复数据的删除,找出数据文件中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。数据去重方法分为完全去重和不完...原创 2021-10-15 16:43:08 · 1316 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记CSV、JSON数据抽取
4.1 抽取文本数据 4.1.1 CSV文件的抽取 CSV是Comma-Separated Values的缩写,即逗号分隔符。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符替代逗号实现分隔,因此也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据 (数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++、等文本编译器打开,从而对文件进行查看、编辑等操作。 CSV作为数据转存的...原创 2021-10-02 10:57:45 · 976 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记kettle
3.1 Kettle 3.1.1Kettle概述 Kettle是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间数据的迁移。 Kettle工具主要由4个组件组成,分别是SpoonPan、Kitchen及Carte组件,具体功能介绍如下。 .Spoon是Kettle的集成开发环境,它会提供一个基于SWT的图形用户界面,主要用 于构建ETLJobs(作业)和Transfor...原创 2021-09-17 20:29:49 · 592 阅读 · 0 评论 -
黑马程序员《数据清洗》学习笔记第一章
目录 第一章 数据清洗概述 1.1 数据清洗的背景 1.1.1 数据质量概述 1.1.2 数据质量的评价指标 1.1.3 数据质量的问题分类 1.2 数据清洗的定义 1.3 数据清洗的原理 1.4 数据清洗的基本流程 1.5 数据清洗的策略 1.6 常见的数据清洗方式 第一章 数据清洗概述 由于数据来源广泛,数据类型复杂,存在不完整、重复以及错误的数据,直接使用这些原始数据会严重影响数据决策的准确性和效率。故而,对原始数据进行有效的清晰是...原创 2021-09-10 15:14:29 · 936 阅读 · 0 评论