- 博客(19)
- 收藏
- 关注
原创 第8章——综合案例(构建DVD租赁商店数据仓库)
sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。
2022-11-23 14:21:17 891 1
原创 第7章——数据加载(案例三:数据的批量加载)
通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。
2022-11-22 20:48:09 180
原创 第7章——数据加载(案例二:增量加载)
通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。
2022-11-22 18:21:56 169
原创 第7章——数据加载(案例一:全量加载)
从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。
2022-11-22 17:52:10 139
原创 第六章——数据转换(案例三:数据粒度的转换)
通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。
2022-11-22 13:58:32 141
原创 第六章——数据转换(案例二:不一致数据的转换)
通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。
2022-11-22 13:49:06 141
原创 第六章——数据转换(案例一:多数据源合并)
通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。
2022-11-21 21:21:23 433
原创 第五章——数据清洗与校验(案例七:数据一致性处理)
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。
2022-11-12 15:56:17 240
原创 第四章——数据抽取(案例二:抽取json数据到数据库extract中的数据表json中)
抽取json数据到数据库extract中的数据表json中
2022-11-10 12:15:20 128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人