ETL-kettle
文章平均质量分 61
kiritobryant
研零在读研究生,本科大数据,研零转人工智能 究极人工智能爱好者!
展开
-
加载商店数据至商店维度表
目录1.创建转换编辑2.配置表输入编辑3.配置表输入2编辑4.配置映射(子转换)编辑5.配置数据库查询编辑6.配置维度查询/更新编辑 7.运行转换编辑编辑 编辑原创 2022-11-28 12:28:30 · 143 阅读 · 0 评论 -
加载用户数据至用户维度表
目录1.创建转换2.配置表输入 3.配置表输入24.创建新转换 5.配置映射输入规范6.配置数据库查询 7.配置数据库查询28.配置数据库查询3 9.配置过滤记录 10配置JavaScript代码11.配置字段选择 12.配置映射输出规范13.配置映射(子转换) 14.配置字段选择15.配置值映射 16.配置维度查询/更新 17.运行转换原创 2022-11-28 12:22:14 · 859 阅读 · 0 评论 -
加载用户数据至用户维度表
通过Kettle工具加载员工数据至员工维度表dim_staff。使用Kettle工具,创建一个转换load_dim_staff,并添加表输入控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。原创 2022-11-28 11:54:07 · 164 阅读 · 0 评论 -
加载员工数据至员工维度表
目录1.创建转换2.配置表输入 3.配置表输入2 4.配置字段选择 5.配置值映射 6.配置维度查询/更新 7.运行转换8.结果展示原创 2022-11-28 11:36:08 · 211 阅读 · 0 评论 -
加载时间数据至时间维度表
加载时间数据至时间维度表原创 2022-11-28 11:31:41 · 308 阅读 · 0 评论 -
第8章 综合案例—构建DVD租赁商店数据仓库
在日益激烈的商业竞争中,在线DVD租赁商店的决策者都迫切地需要更加准确的战略决策信息。每个在线DVD租赁商店的数据都存储在数据库中,因此该数据库中拥有海量的数据,并不缺乏足够的信息,但是这些数据并不是战略决策需要的信息。虽然这些海量数据对于在线DVD租赁商店的运作是非常有用的,但是对于商业的战略决策和目标制定的作用是微乎其微的。原创 2022-11-26 10:26:05 · 1131 阅读 · 0 评论 -
7.2Kettle数据加载——数据的批量加载
运行转换batch_load,并查看weibo_user数据表。工具,创建batch_load转换,添加如下控件及Hop连接线。准备数据:创建源数据表'weibo_user'原创 2022-11-07 18:02:56 · 421 阅读 · 0 评论 -
7.1.2Kettle数据加载——全量加载
工具,创建转换full_load,并添加如下控件及Hop跳连接线。运行full_load转换,并查看目标表。源数据full_source。目标表full_target。配置“执行SQL脚本”控件。原创 2022-11-07 17:59:08 · 249 阅读 · 0 评论 -
7.1Kettle数据加载——增量加载
工具,创建转换incremental_load,并添加如下控件及Hop跳连接线。修改源数据表中数据,新增第六行数据,将第二行数据的age修改为25。运行转换incremental_load并查看目标表。添加目标数据表incremental_target。添加源数据表incremental_source。配置“插入/更新”控件。原创 2022-11-07 17:31:19 · 554 阅读 · 0 评论 -
6.4Kettle数据转换——数据的商务规则计算
10.运行转换total,并查看表regional_sales中的数据。工具,创建转换total,添加如下控件及Hop跳连接线。8.配置“唯一行(哈希值)”控件。7.配置“字段选择2”控件。3.配置“字段选择”控件。5.配置“排序记录”控件。2.配置“表输入”控件。4.配置“计算器”控件。9.配置“表输出”控件。6.配置“分组”控件。原创 2022-11-07 17:26:42 · 98 阅读 · 0 评论 -
6.3Kettle数据转换——数据粒度的转换
12.配置“记录集连接2”控件。11.配置“排序记录4”控件。14.配置“字段选择3”控件。16.配置“字段选择4”控件。6.配置“排序记录2”控件。7.配置“记录集连接”控件。8.配置“字段选择2”控件。9.配置“排序记录3”控件。10.配置“表输入3”控件。13.配置“过滤记录”控件。17.配置“表输出2”控件。3.配置“字段选择”控件。4.配置“排序记录”控件。15.配置“表输出”控件。2.配置“表输入”控件。5.配置“表输入2”控件。原创 2022-11-07 17:20:46 · 181 阅读 · 0 评论 -
6.2Kettle数据转换——不一致数据转换
Kettle数据转换——不一致数据转换原创 2022-11-04 17:12:12 · 394 阅读 · 0 评论 -
6.1Kettle数据转换——多数据源的合并
工具,创建转换company_merge,添加如下控件及Hop跳连接线。10.运行转换,查看数据表company中的数据。2.配置“CSV文件输入”控件。3.配置“字段选择”控件。5.配置“排序合并”控件。6.配置“增加序列”控件。7.配置“字段选择2”控件。4.配置“表输入”控件。8.配置“表输出”控件。原创 2022-11-02 12:08:11 · 586 阅读 · 0 评论 -
任务开始设置
在【开始】任务工程工作区下方,展示运行任务的执行结果日志,如下 图所示,表示【开始】任务在开始执行,定时调度在进行当中。在【开始】任务工程中,单击【核心对象】选项卡,展开【通用】对象,选中【Start】组件,并拖曳到右边工作区中,如图所示,在一个任务中,只能有一个【Start】组件。开始是任务执行的起点,在开始任务中,设置定时调度参数,可以使任务定时执行。在上图所示的【作业定时调度】对话框中,设置有关参数,每天23:59开始,执行抽取数据的任务,如图所示,此时完成【Start】组件的参数设置。原创 2022-10-28 17:55:11 · 416 阅读 · 0 评论 -
迁移和装载
使用Ctrl+N快捷键,创建【表输出】转换工程,参考2.1小节的介绍,创建名称为“demodbConn”的数据库连接,将该连接设置为共享,并设置该连接能够访问到MySQL中的“demodb”数据库。在【表输出】转换工程中,单击【核心对象】选项卡,展开【输出】对象,选中【表输出】组件,并拖曳到右边工作区中。双击【表输出】组件,弹出【表输出】对话框,如图所示,【表输出】组件的参数包含组件的基础参数,以及【主选项】和【数据库字段】两个选项卡参数。组件的基础参数 在【表输出】对话框中,组件的基础参数说明如表所示。原创 2022-10-28 17:44:28 · 294 阅读 · 0 评论 -
5.4.2Kettle数据的清洗与检验——数据规范化处理
在“字段”处添加一个新字段UnitPrice,用于存储计算出的产品单价数据。 点击“增加检验”,增加三个检验,分别为“date_verify”“name_verify”“price_verify”;单机检验分别设置检验条件。“date_verify”检验 “name_verify”检验 “price_verify”检验 通过分发方式设置“主输出步骤”连接到“空操作(什么也不做)”控件;设置“错误处理步骤”连接到“空操作(什么也不做)2”控件。 不符合校验规则的数据成功被检验出来。原创 2022-10-26 11:37:09 · 240 阅读 · 0 评论 -
获取变量-获取变量可以获得系统环境变量和用户自定义变量的值
在Kettle中,获取变量可以获得系统环境变量和用户自定义变量的值。某生产系统定时每天推送前两天的、名称格式为yyyyMMdd的数据文件,为了获得已设置好的日期变量并每天读取前两天的数据文件,需要使用获取变量组件,获取5.7小节中用户自定义的fileDate变量。原创 2022-10-26 11:15:53 · 484 阅读 · 0 评论 -
设置变量-处理年月日
在Kettle中,读者可通过获得系统信息组件获得系统环境变量,也可以通过设置变量,定义虚拟机和任务中的变量。在项目中,经常利用生产环境或外围系统交互的FTP文件接口,获取固定格式的数据文件。某生产系统每天定时推送名称格式包含yyyyMMdd的数据文件,为了获得日期变量并每天读取由生产系统推送的前两天的数据文件,需要使用设置变量组件,设置名称为fileDate的变量,该变量值需要符合yyyyMMdd格式,取值为当前系统日期的前两天。原创 2022-10-26 10:58:22 · 789 阅读 · 0 评论 -
利用Janino计算Java表达式
Janino是一个超小型,超快的Java编译器,Kettle可以利用Janino提供类和对象,定义Java表达式来计算新值。在某年级的“2020年4月月考成绩.xls”文件中,为了了解学生的考试情况,需要采用利用Janino计算Java表达式组件,统计每个学生月考成绩的总分,并按照四舍五入的方法,计算每个学生的平均分。(1) 建立【利用Janino计算Java表达式】转换工程。(2) 设置【利用Janino计算Java表达式】参数。(3) 预览结果数据。原创 2022-10-26 10:48:28 · 597 阅读 · 0 评论 -
5.3 异常值处理
通过使用Kettle工具,创建一个转换fill_unusual_value,并添加“表输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“设置值为NULL”控件、“合并记录”控件、“替换NULL值”控件、字段选择控件以及Hop跳连接线。选中“空操作(什么也不做)”控件,然后单击转换工作区顶部的 按钮,预览“空操作(什么也不做)”控件中的数据,id为15的这条数据,Height字段为260,260不在非异常值范围[114,226]内,因此该条数据为异常数据。我们用navicat运行sql文件。原创 2022-10-21 16:00:58 · 577 阅读 · 0 评论 -
5.3 异常值处理
异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。原创 2022-10-21 15:36:55 · 1668 阅读 · 0 评论 -
5.2 缺失值处理-填充缺失值
通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。现在有一份社会人员调查信息的数据文件people_survey.txt,由于某种原因,在数据采集的过程中产生了大量的缺失值,文件people_survey.txt的具体内容如图所示。原创 2022-10-21 15:27:32 · 433 阅读 · 0 评论 -
5.2 缺失值处理
通过Kettle工具,去除原始数据集revenue.txt中的缺失值。现在有一份就业人员的收入数据文件revenue.txt,由于某种原因,在数据采集的过程中产生了大量的缺失值数据,内容如图所示。通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。单击【浏览】按钮,选择要去除缺失值的文件revenue.txt;原创 2022-10-21 15:15:10 · 920 阅读 · 0 评论 -
5.1 数据去重 不完全去重
通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除文件people.txt中不完全重复的数据。数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据文件people.txt的内容添加对应的字段名称,并指定数据类型。通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。原创 2022-10-21 15:01:40 · 122 阅读 · 0 评论 -
5.1 数据去重 完全去重
数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。原创 2022-10-21 14:53:11 · 1426 阅读 · 0 评论 -
4.2 抽取Web数据-HTML网页的数据抽取
我们以抽取“豆瓣电影排行榜”网页的超链接数据为例进行抽取数据,豆瓣电影排行榜页面的部分内容如图所示。原创 2022-10-19 11:58:05 · 811 阅读 · 2 评论 -
4.1 抽取文本数据-CSV文件的抽取
CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。单击【获取字段】按钮,Kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。单击【预览】按钮,查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中。文件开头不能留空,以“行”为单位;原创 2022-10-19 11:42:54 · 350 阅读 · 1 评论 -
4.1 抽取文本数据-TSV文件的抽取
制表符文件中的数据以表格结构储存,每一行储存一条记录,每条记录的各个字段间使用制表符分隔。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。原创 2022-10-19 11:07:01 · 476 阅读 · 3 评论