自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Ubuntu查找文件

Ubuntu查找文件

2023-12-28 08:46:46 399 1

原创 Windows下查看mysql版本

Windows下查看mysql版本

2022-11-30 17:25:24 403

原创 第八章 加载日期数据至日期维度表

1.创建转换2.配置生成记录 3.配置增加序列 4.配置JavaScript代码 5.配置表输出 6.运行转换

2022-11-29 22:35:50 273

原创 第七章 数据的批量加载

工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。使用Kettle工具,创建一个转换batch_load。查看数据表weibo_user中的数据。运行转换batch_load。配置CSV文件输入控件。

2022-11-29 22:30:11 122

原创 第七章 数据的加载机制--增量加载

工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。使用Kettle工具,创建一个转换incremental_load。修改数据表incremental_source中的数据。查看数据表incremental_target中的数据。运行转换incremental_load。

2022-11-29 22:26:39 97

原创 第七章 数据的加载机制--全量加载

通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。使用Kettle工具,创建一个转换full_load。查看数据表full_target中的数据。运行转换full_load。配置执行SQL脚本控件。

2022-11-29 22:18:09 61

原创 第六章 数据的商务规则计算

工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。使用Kettle工具,创建一个转换total。查看数据表regional_sales中的数据。

2022-11-29 22:07:03 55

原创 第六章 不一致数据的转换

工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。打开Kettle工具,创建转换。运行inconsistent转换。查看数据表company。

2022-11-29 21:53:50 71

原创 第六章 多数据源合并

工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。运行转换company_merge。查看数据表company中的数据。打开Kettle工具,创建转换。配置CSV文件输入控件。

2022-11-28 17:20:58 131

原创 第五章 数据检验--数据规范化处理

添加检验名称name_verify用于校验商品名称。添加检验名称price_verify用于校验产品单价。添加检验名称date_verify用于校验日期。通过Kettle工具,对数据进行检验操作。运行转换data_validation。打开Kettle工具,创建转换。配置”自定义常量数据”控件。配置”数据检验”控件。

2022-11-28 15:35:22 74

原创 第五章 数据检验--数据一致性处理

通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。查看数据表Personnel_ Information_New中的数据。运行转换data _consistency。打开Kettle工具,创建转换。配置”插入/更新”控件。

2022-11-28 15:29:22 169

原创 第五章 异常值处理--修补异常值

运行转换fill_unusual_value并查看数据表interpolation_data中的异常值是否修改并替换。工具,替换和修改数据表interpolation_data中的异常值。打开Kettle工具,创建转换。配置替换NULL值控件。

2022-11-28 15:23:43 202

原创 第五章 异常值处理--删除包含异常值的记录

除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。运行转换delete_anomalous_value并查看文件temperature.txt是否去除了异常值。工具,去除文件temperature.txt中的异常值。添加对应的字段名称并指定数据类型。打开Kettle工具,创建转换。配置文本文件输入控件。

2022-11-28 15:13:43 187

原创 第五章 缺失值处理--填充缺失值

清除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;运行转换fill_missing_value并查看文件people_survey.txt中的缺失值是否已填充。工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。将people_survey.txt添加到“文本文件输入”控件中。添加对应的字段名称,并指定数据类型。打开Kettle工具,创建转换。配置替换NULL值控件。配置替换NULL值2控件。配置文本文件输入控件。

2022-11-28 11:48:08 281

原创 第五章 缺失值处理--去除缺失值

在清除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。根据文件revenue.txt的内容添加对应的字段名称,并指定数据类型。工具,去除原始数据集revenue.txt中的缺失值。查看“Excel输出”控件输出的文件file.xls。打开Kettle工具,创建转换。配置Excel输出控件。移除Field2字段。配置文本文件输入控件。双击“字段选择”控件。

2022-11-28 11:33:38 67

原创 第五章 数据去重--不完全去重

通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。打开Kettle工具,创建转换 配置文本文件输入控件 清除分隔符处的默认分隔符“;”,并单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框 添加对应的字段名称并指定数据类型 配置唯一行(哈希值)控件 运行转换repeat_transform并查看文件people.txt是否消除不完全重复的数据

2022-11-28 09:15:32 217

原创 第五章 数据去重--完全去重

运行转换repeat_transform 并且查看merge.csv是否消除完全重复的数据。通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。打开Kettle工具,创建转换。配置”唯一行(哈希值)”控件。配置CSV文件输入控件。

2022-11-28 08:36:44 89

原创 第四章 抽取Web数据--JSON文件的数据抽取

工具抽取JSON文件json_extract.json中的数据并保存至数据库extract中的数据表json中。勾选“源定义在一个字段里?在“从字段获取源”处的下拉框中选择字段名,即data。运行创建的json_extract转换。配置JSON input 2输入控件。配置JSON input输入控件。打开Kettle工具,创建转换。配置JSON文件输入控件。添加要抽取的数据字段。

2022-11-28 08:33:40 336

原创 第四章 抽取Web数据--XML文件的数据抽取

工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。选择要抽取的XML文件xml_extract.xml。单击【获取XML文档的所有路径】选择循环读取路径。运行创建的xml_extract转换。配置Get data from。打开Kettle工具,创建转换。

2022-11-27 22:47:01 224

原创 第四章 抽取Web数据--HTML网页的数据抽取

工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中。查看数据表html已成功插入的66行数据。运行转换html_extract。配置HTTP client控件。打开Kettle工具,创建转换。配置自定义常量数据控件。配置Java代码控件。

2022-11-27 22:25:15 359

原创 第四章 抽取文本数据--CSV文件的抽取

工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。打开Kettle工具,创建转换。配置CSV文件输入控件。查看数据表CSV的数据。

2022-11-27 22:05:50 163

原创 第四章 抽取文本数据--TSV文件的抽取

通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线。工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。配置文本文件输入控件。查看数据表tsv的数据。

2022-11-27 21:57:41 92

原创 第三章 转换管理

通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。通过使用Kettle工具,创建一个转换field_switching,并添加表输入控件、JavaScript代码控件、插入/更新控件以及跳连接线,具体如图所示。创建一个数据库personal,并在该数据库中创建两张数据表,即数据表personal_a和数据表personal_b,两张数据表的内容如图所示。

2022-11-27 10:18:42 241

转载 kettle连接mysql8.0以上版本

kettle连接mysql8.0以上版本

2022-11-08 15:55:02 1918 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除