ETL案例
文章平均质量分 73
skxc_
这个作者很懒,什么都没留下…
展开
-
第八章 加载日期数据至日期维度表
构建DVD租赁商店数据仓库。使用Kettle工具实现抽取数据库sakila中的数据,转换成符合DVD租赁业务的数据,并加载到DVD租赁商店数据仓库sakila_dw中。原创 2022-11-26 12:06:58 · 652 阅读 · 1 评论 -
第七章 数据的批量加载
通过Kettle工具将文件中的数据批量加载到数据表weibo_user中。原创 2022-11-25 22:00:39 · 112 阅读 · 0 评论 -
第七章 增量加载
增量加载是指目标表仅加载源数据表中新增和发生变化的数据。优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获到并加载到目标表中,同时还不会对业务系统造成太大的压力,也不会影响现有业务。通过Kettle工具将数据表中的数据增量加载到数据表中。原创 2022-11-25 21:49:53 · 203 阅读 · 0 评论 -
第七章 全量加载
从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表中的数据全量加载到数据表中。原创 2022-11-25 21:31:06 · 135 阅读 · 0 评论 -
第六章 数据的商务规则计算
通过Kettle工具对数据表中的数据进行商务规则的计算,即对数据表中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表中。原创 2022-11-25 20:40:29 · 68 阅读 · 0 评论 -
第六章 数据粒度的转换
通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表中。原创 2022-11-25 20:16:04 · 125 阅读 · 0 评论 -
第六章 不一致数据转换
通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。原创 2022-11-25 19:19:02 · 59 阅读 · 0 评论 -
第六章 多数据源的合并
通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件和数据表company_b中的数据进行合并操作,并输出到数据表company中。原创 2022-11-25 18:12:17 · 190 阅读 · 0 评论 -
第五章 数据规范化处理
通过Kettle工具,对数据进行检验操作。原创 2022-11-24 21:18:10 · 111 阅读 · 0 评论 -
第五章 数据一致性处理
通过Kettle工具,使用弱一致性对数据表中的数据进行一致性处理,即利用数据表中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。原创 2022-11-24 20:50:49 · 445 阅读 · 0 评论 -
第五章 修补异常值
通过Kettle工具,替换和修改数据表中的异常值。原创 2022-11-24 20:32:38 · 348 阅读 · 0 评论 -
第五章 删除包含异常值的记录
通过Kettle工具,去除文件中的异常值。原创 2022-11-24 20:11:31 · 69 阅读 · 0 评论 -
第五章 填充缺失值
通过Kettle工具,使用平均值填充法对文件中的缺失值进行填充。原创 2022-11-24 19:55:39 · 54 阅读 · 0 评论 -
第五章 去除缺失值
通过Kettle工具,去除原始数据集中的缺失值。原创 2022-11-24 19:37:01 · 57 阅读 · 0 评论 -
第五章 不完全去重
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。原创 2022-11-24 18:42:19 · 44 阅读 · 0 评论 -
第五章 完全去重
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。原创 2022-11-24 18:28:08 · 44 阅读 · 0 评论 -
第四章 JSON文件的数据抽取
通过Kettle工具抽取JSON文件中的数据并保存至数据库extract中的数据表json中。原创 2022-11-23 19:26:27 · 198 阅读 · 0 评论 -
第四章 XML文件的数据抽取
通过Kettle工具抽取XML文件中的数据并保存至数据库extract的数据表xml中。原创 2022-11-23 19:03:11 · 508 阅读 · 0 评论 -
第四章 HTML网页的数据抽取
通过Kettle工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中。原创 2022-11-23 18:45:15 · 1676 阅读 · 0 评论 -
第四章 CSV文件的抽取
通过Kettle工具抽取CSV文件中的数据并保存至数据库extract的数据表csv中。原创 2022-11-23 18:07:39 · 76 阅读 · 0 评论 -
第四章 TSV文件的抽取
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。原创 2022-11-23 17:37:02 · 83 阅读 · 0 评论 -
第三章 作业管理案例
通过Kettle工具的作业来实现发送邮件。原创 2022-11-01 19:25:50 · 69 阅读 · 0 评论 -
第三章 转换管理案例
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。原创 2022-11-01 18:05:43 · 112 阅读 · 1 评论