自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 第8章——综合案例(构建DVD租赁商店数据仓库)

sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。

2022-11-23 14:21:17 891 1

原创 第7章——数据加载(案例三:数据的批量加载)

通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。

2022-11-22 20:48:09 180

原创 第7章——数据加载(案例二:增量加载)

通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。

2022-11-22 18:21:56 169

原创 第7章——数据加载(案例一:全量加载)

从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。

2022-11-22 17:52:10 139

原创 第六章——数据转换(案例三:数据粒度的转换)

通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。

2022-11-22 13:58:32 141

原创 第六章——数据转换(案例二:不一致数据的转换)

通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。

2022-11-22 13:49:06 141

原创 第六章——数据转换(案例一:多数据源合并)

通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。

2022-11-21 21:21:23 433

原创 第五章——数据清洗与校验(案例八:数据规范化处理)

通过Kettle工具,对数据进行检验操作。

2022-11-12 20:00:44 142

原创 第五章——数据清洗与校验(案例七:数据一致性处理)

通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。

2022-11-12 15:56:17 240

原创 第五章——数据清洗与校验(案例六:修补异常值)

通过Kettle工具,替换和修改数据表interpolation_data中的异常值。

2022-11-12 15:15:12 128

原创 第五章——数据清洗与校验(案例五:删除包含异常值的记录)

通过Kettle工具,去除文件temperature.txt中的异常值。

2022-11-12 14:33:55 103

原创 第五章——数据清洗与校验(案例四:填充缺失值)

对文件people_survey.txt中的缺失值进行填充

2022-11-11 20:33:00 154

原创 第五章——数据清洗与校验(案例三:去除缺失值)

通过Kettle工具,去除原始数据集revenue.txt中的缺失值。

2022-11-11 18:18:34 133

原创 第五章——数据清洗与校验(案例二:不完全去重)

对文件people_survey.txt中的缺失值进行填充

2022-11-11 17:31:18 75

原创 第五章——数据清洗与校验(案例一:完全去重)

对文件merge.csv进行完全去重

2022-11-11 16:57:11 168

原创 第四章——数据抽取(案例二:抽取json数据到数据库extract中的数据表json中)

抽取json数据到数据库extract中的数据表json中

2022-11-10 12:15:20 128

原创 第四章——数据抽取(案例一:抽取csv数据到数据库extract中的数据表csv中)

抽取csv数据到数据库extract中的数据表csv中

2022-11-10 11:33:03 127

原创 第三章——Kettle工具的基本使用(案例二:发送邮件 )

发送邮件

2022-11-09 21:25:37 1356

原创 第三章——Kettle工具的基本使用(案例一:数据表字段合并后插入到新表 )

数据表字段合并后插入到新表

2022-11-09 20:46:25 1017

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除