自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 ETL笔记——第八章 综合案例(构建DVD租赁商店数据仓库)

本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。

2022-11-30 10:21:33 674 1

原创 ETL笔记——第四章 数据抽取(抽取Web数据)

抽取Web数据主要是获取网页上的数据。Web网页上出现的数据形式主要有三种,分别是HTML形式、XML形式以及JSON形式。

2022-11-24 12:14:03 498

原创 ETL笔记——第三章 作业管理

通过Kettle工具的作业来实现发送邮件。

2022-11-23 17:31:56 253

原创 ETL笔记——第七章 数据加载

数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。

2022-11-02 15:29:17 654

原创 ETL笔记——第六章 数据转换

数据的清洗过程除了包括第5章提到的对数据本身的清洗与检验操作,还包括数据转换操作。数据转换是数据清洗过程的重要步骤之一,它的主要任务是进行不一致的数据转换、数据粒度的转换、以及一些商务规则的计算。

2022-11-01 20:51:39 1237

原创 ETL笔记——第五章 数据清洗与校验(数据检验)

通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。数据进行检验操作。

2022-10-31 17:20:33 932

原创 ETL笔记——第五章 数据清洗与校验(异常值)

通过Kettle工具,去除文件temperature.txt中的异常值。替换和修改数据表interpolation_data中的异常值。

2022-10-31 10:23:24 507

原创 ETL笔记——第五章 数据清洗与校验(缺失值处理)

通过Kettle工具,去除原始数据集revenue.txt中的缺失值和使用平均值填充法对文件people_survey.txt中的缺失值进行填充。

2022-10-30 10:31:48 656

原创 ETL笔记——第五章 数据清洗与校验(数据去重)

通过Kettle工具,分别消除CSV文件merge.csv中完全重复的数据和将文件people.txt中不完全重复的数据进行去重处理。

2022-10-29 13:54:34 547

原创 ETL笔记——第四章 数据抽取(抽取文本数据)

通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库test中的数据表tsv中,抽取CSV文件csv_extract.csv中的数据并保存至数据库test的数据表csv中。

2022-10-29 11:27:44 830

原创 ETL笔记——第三章

通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。

2022-10-24 16:14:31 831

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除