- 博客(24)
- 收藏
- 关注
原创 第七章 数据的批量加载
工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。使用Kettle工具,创建一个转换batch_load。查看数据表weibo_user中的数据。运行转换batch_load。配置CSV文件输入控件。
2022-11-29 22:30:11 122
原创 第七章 数据的加载机制--增量加载
工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。使用Kettle工具,创建一个转换incremental_load。修改数据表incremental_source中的数据。查看数据表incremental_target中的数据。运行转换incremental_load。
2022-11-29 22:26:39 97
原创 第七章 数据的加载机制--全量加载
通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。使用Kettle工具,创建一个转换full_load。查看数据表full_target中的数据。运行转换full_load。配置执行SQL脚本控件。
2022-11-29 22:18:09 61
原创 第六章 数据的商务规则计算
工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。使用Kettle工具,创建一个转换total。查看数据表regional_sales中的数据。
2022-11-29 22:07:03 55
原创 第六章 不一致数据的转换
工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。打开Kettle工具,创建转换。运行inconsistent转换。查看数据表company。
2022-11-29 21:53:50 71
原创 第六章 多数据源合并
工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。运行转换company_merge。查看数据表company中的数据。打开Kettle工具,创建转换。配置CSV文件输入控件。
2022-11-28 17:20:58 131
原创 第五章 数据检验--数据规范化处理
添加检验名称name_verify用于校验商品名称。添加检验名称price_verify用于校验产品单价。添加检验名称date_verify用于校验日期。通过Kettle工具,对数据进行检验操作。运行转换data_validation。打开Kettle工具,创建转换。配置”自定义常量数据”控件。配置”数据检验”控件。
2022-11-28 15:35:22 74
原创 第五章 数据检验--数据一致性处理
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。查看数据表Personnel_ Information_New中的数据。运行转换data _consistency。打开Kettle工具,创建转换。配置”插入/更新”控件。
2022-11-28 15:29:22 169
原创 第五章 异常值处理--修补异常值
运行转换fill_unusual_value并查看数据表interpolation_data中的异常值是否修改并替换。工具,替换和修改数据表interpolation_data中的异常值。打开Kettle工具,创建转换。配置替换NULL值控件。
2022-11-28 15:23:43 202
原创 第五章 异常值处理--删除包含异常值的记录
除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。运行转换delete_anomalous_value并查看文件temperature.txt是否去除了异常值。工具,去除文件temperature.txt中的异常值。添加对应的字段名称并指定数据类型。打开Kettle工具,创建转换。配置文本文件输入控件。
2022-11-28 15:13:43 187
原创 第五章 缺失值处理--填充缺失值
清除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;运行转换fill_missing_value并查看文件people_survey.txt中的缺失值是否已填充。工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。将people_survey.txt添加到“文本文件输入”控件中。添加对应的字段名称,并指定数据类型。打开Kettle工具,创建转换。配置替换NULL值控件。配置替换NULL值2控件。配置文本文件输入控件。
2022-11-28 11:48:08 281
原创 第五章 缺失值处理--去除缺失值
在清除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。根据文件revenue.txt的内容添加对应的字段名称,并指定数据类型。工具,去除原始数据集revenue.txt中的缺失值。查看“Excel输出”控件输出的文件file.xls。打开Kettle工具,创建转换。配置Excel输出控件。移除Field2字段。配置文本文件输入控件。双击“字段选择”控件。
2022-11-28 11:33:38 67
原创 第五章 数据去重--不完全去重
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。打开Kettle工具,创建转换 配置文本文件输入控件 清除分隔符处的默认分隔符“;”,并单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框 添加对应的字段名称并指定数据类型 配置唯一行(哈希值)控件 运行转换repeat_transform并查看文件people.txt是否消除不完全重复的数据
2022-11-28 09:15:32 217
原创 第五章 数据去重--完全去重
运行转换repeat_transform 并且查看merge.csv是否消除完全重复的数据。通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。打开Kettle工具,创建转换。配置”唯一行(哈希值)”控件。配置CSV文件输入控件。
2022-11-28 08:36:44 89
原创 第四章 抽取Web数据--JSON文件的数据抽取
工具抽取JSON文件json_extract.json中的数据并保存至数据库extract中的数据表json中。勾选“源定义在一个字段里?在“从字段获取源”处的下拉框中选择字段名,即data。运行创建的json_extract转换。配置JSON input 2输入控件。配置JSON input输入控件。打开Kettle工具,创建转换。配置JSON文件输入控件。添加要抽取的数据字段。
2022-11-28 08:33:40 336
原创 第四章 抽取Web数据--XML文件的数据抽取
工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。选择要抽取的XML文件xml_extract.xml。单击【获取XML文档的所有路径】选择循环读取路径。运行创建的xml_extract转换。配置Get data from。打开Kettle工具,创建转换。
2022-11-27 22:47:01 224
原创 第四章 抽取Web数据--HTML网页的数据抽取
工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中。查看数据表html已成功插入的66行数据。运行转换html_extract。配置HTTP client控件。打开Kettle工具,创建转换。配置自定义常量数据控件。配置Java代码控件。
2022-11-27 22:25:15 359
原创 第四章 抽取文本数据--CSV文件的抽取
工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。打开Kettle工具,创建转换。配置CSV文件输入控件。查看数据表CSV的数据。
2022-11-27 22:05:50 163
原创 第四章 抽取文本数据--TSV文件的抽取
通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线。工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。配置文本文件输入控件。查看数据表tsv的数据。
2022-11-27 21:57:41 92
原创 第三章 转换管理
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。通过使用Kettle工具,创建一个转换field_switching,并添加表输入控件、JavaScript代码控件、插入/更新控件以及跳连接线,具体如图所示。创建一个数据库personal,并在该数据库中创建两张数据表,即数据表personal_a和数据表personal_b,两张数据表的内容如图所示。
2022-11-27 10:18:42 241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人