- 博客(11)
- 收藏
- 关注
原创 ETL笔记——第八章 综合案例(构建DVD租赁商店数据仓库)
本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。
2022-11-30 10:21:33 746 1
原创 ETL笔记——第四章 数据抽取(抽取Web数据)
抽取Web数据主要是获取网页上的数据。Web网页上出现的数据形式主要有三种,分别是HTML形式、XML形式以及JSON形式。
2022-11-24 12:14:03 536
原创 ETL笔记——第七章 数据加载
数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。
2022-11-02 15:29:17 709
原创 ETL笔记——第六章 数据转换
数据的清洗过程除了包括第5章提到的对数据本身的清洗与检验操作,还包括数据转换操作。数据转换是数据清洗过程的重要步骤之一,它的主要任务是进行不一致的数据转换、数据粒度的转换、以及一些商务规则的计算。
2022-11-01 20:51:39 1337
原创 ETL笔记——第五章 数据清洗与校验(数据检验)
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。数据进行检验操作。
2022-10-31 17:20:33 1056
原创 ETL笔记——第五章 数据清洗与校验(异常值)
通过Kettle工具,去除文件temperature.txt中的异常值。替换和修改数据表interpolation_data中的异常值。
2022-10-31 10:23:24 572
原创 ETL笔记——第五章 数据清洗与校验(缺失值处理)
通过Kettle工具,去除原始数据集revenue.txt中的缺失值和使用平均值填充法对文件people_survey.txt中的缺失值进行填充。
2022-10-30 10:31:48 712
原创 ETL笔记——第五章 数据清洗与校验(数据去重)
通过Kettle工具,分别消除CSV文件merge.csv中完全重复的数据和将文件people.txt中不完全重复的数据进行去重处理。
2022-10-29 13:54:34 647
原创 ETL笔记——第四章 数据抽取(抽取文本数据)
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库test中的数据表tsv中,抽取CSV文件csv_extract.csv中的数据并保存至数据库test的数据表csv中。
2022-10-29 11:27:44 901
原创 ETL笔记——第三章
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。
2022-10-24 16:14:31 905
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人