自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 7.3 数据的批量加载

​通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。​

2022-11-26 15:03:12 67 1

原创 7.2 数据的加载机制--增量加载

​通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。​

2022-11-26 14:57:39 79

原创 7.1 数据的加载机制--全量加载

通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。

2022-11-26 14:51:34 75

原创 5.5 数据检验--数据规范化处理

通过Kettle工具,对数据进行检验操作。

2022-11-26 14:46:23 75

原创 5.4 数据检验--数据一致性处理

​通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。​

2022-11-26 14:40:12 108

原创 6.4 数据粒度的转换

​通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。​

2022-11-25 23:50:23 60

原创 6.3 数据的商务规则计算

通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。

2022-11-25 15:57:58 121

原创 6.2 不一致数据的转换

​通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。​

2022-11-25 15:47:30 57

原创 6.1 多数据源合并

通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。

2022-11-25 15:35:46 134

原创 5.3 异常值处理(修补异常值)

通过Kettle工具,替换和修改数据表interpolation_data中的异常值。

2022-11-25 15:21:45 366

原创 5.3 异常值处理(删除包含异常值的记录)

通过Kettle工具,去除文件temperature.txt中的异常值。

2022-11-25 15:07:05 209

原创 5.2 缺失值处理(填充缺失值)

通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。

2022-11-25 14:58:23 261

原创 5.2 缺失值处理(去除缺失值)

通过Kettle工具,去除原始数据集revenue.txt中的缺失值。

2022-11-25 14:39:57 1542

原创 4.1 抽取文本数据

通过使用Kettle工具,创建一个转换,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。

2022-11-16 20:32:40 84

原创 4.2抽取web数据

HyperText Markup Language,简称HTML,即超文本标记语言,它包含了一套标记标签,主要用于创建和描述网页。HTML可以以文档的形式展示,HTML文档中包含HTML标签和纯文本。

2022-11-16 20:21:49 71

原创 4.1.2 CSV文件的抽取

使用kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件,建立节点连接,用于实现CSV文件数据的抽取功能。

2022-11-16 18:38:01 212

原创 3.4 kettle发送邮件

通过使用Kettle工具,创建一个作业send_email,并添加Start控件、发送邮件控件、成功控件以及作业跳连接线

2022-11-16 18:18:38 682

原创 3.4 kettle的基本功能

​通过使用Kettle工具,创建一个转换field_switching,并添加表输入控件、JavaScript代码控件、插入/更新控件以及跳连接线​

2022-11-16 18:05:58 372

原创 5.1 数据去重(不完全去重)

数据去重(不完全去重)

2022-11-16 17:28:39 71

原创 5.1 数据去重(完全去重)

通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。

2022-11-16 16:51:40 92 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除