- 博客(24)
- 收藏
- 关注
原创 8.3.9 加载租赁数据至租赁事实表
1.创建转换2.配置表输入 3.配置表输入2 4.配置字段选择5.配置过滤记录 6.配置计算器 7.配置增加常量 8.配置数据库查询 9.配置数据库查询2 10.配置维度查询/更新 11.配置维度查询/更新2 12.配置维度查询/更新313.配置增加常量2 14.配置插入/更新 15.运行转换 16.查看结果
2022-12-01 10:31:00
628
原创 案例8.3.8 加载电影数据至电影维度表
1.创建转换2.配置表输入 3.配置表输入2 4.配置数据库查询5.配置数据库查询2 6.配置值映射 7.配置列拆分为多行8.配置增加常量 9.配置列转行 10.配置计算器 11.配置数据库连接12.配置数据库查询3 13.配置增加常量2 14.配置列转行215.配置计算器2 16.配置联合查询/更新17.配置数据库连接2 17.配置数据库查询418.配置分组 19.配置计算器3 20.配置流查询21.配置插入/更新 22.运行转换
2022-11-30 10:35:02
246
原创 案例8.3.6 加载商店数据至商店维度表
1.创建转换2.配置表输入 3.配置表输入2 4.配置映射(子转换) 5.配置数据库查询6.配置维度查询/更新 7.运行转换
2022-11-30 10:27:43
157
原创 案例8.3.5 加载用户数据至用户维度表
1.创建转换2.配置表输入 3.配置表输入2 4.创建新转换5.配置映射输入规范 6.配置数据库查询7.配置数据库查询2 8.配置数据库查询39.配置过滤记录 10配置JavaScript代码11.配置字段选择 12.配置映射(子转换) 13.配置字段选择 14.配置值映射 15.配置维度查询/更新16.运行转换
2022-11-30 10:23:52
377
原创 案例8.3.4 加载员工数据至员工维度表
1.创建转换2.配置表输入 3.配置表输入2 4.配置字段选择5.配置值映射 6.配置维度查询/更新 7.运行转换
2022-11-30 10:18:05
99
原创 案例8.3.2 加载日期数据至日期维度表
1.创建转换2.配置生成记录 3.配置增加序列4.配置JavaScript代码 5.配置表输出 6.运行转换
2022-11-30 10:08:21
201
原创 7.1数据的加载机制
优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获到并加载到目标表中,同时还不会对业务系统造成太大的压力,也不会影响现有业务。配置插入/更新控件,选择用来查询的关键字:id,更新字段:id,name,age,create_time。配置表输入控件,输入SQL语句:SELECT * FROM incremental_source。配置表输入控件,输入SQL语句:SELECT * FROM full_source。配置表输出控件,选择目标表:full_target。
2022-11-28 12:09:07
124
原创 6.4数据的商务规则计算
通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。不同的企业,有着不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。例如,A公司和B公司的总公司想要得知各省份的手机日销售额,这就属于一个商务规则。配置字段选择控件,输入字段名称。配置表输出字段,选择数据库字段。
2022-11-28 12:03:26
193
原创 6.3数据粒度的转换
配置表输入2控件,输入SQL语句:SELECT CITY.PID FROM city。配置字段选择2控件,输入字段名称:id,pid,salesArea。配置表输入3控件,输入SQL语句查询pid,provincial。配置字段选择3控件,输入字段名称:id,Provincial。配置字段选择4控件,输入字段名称:id,salesArea。配置字段选择控件,输入字段名称:id,salesArea。配置字段选择控件,输入字段名称:id,salesArea。配置字段选择3控件,输入字段名称。
2022-11-28 10:55:54
116
原创 6.2不一致数据的转换
不一致数据转换主要是将不同业务系统中的相同类型的数据进行统一,例如同一个供应商在结算系统的编码是XX0001,而在CRM(客户关系管理系统)中编码是YY0001,这样就需要将这两个业务系统中的数据抽取过来进行统一转换,转换成同一个编码。配置字段选择控件,输入字段名称:id,brand,model,unitPrice。配置表输入控件,输入SQL语句。配置表输入2控件,输入SQL语句。配置表输入3控件,输入SQL语句。查看company表中的数据。移除名称为id的字段。
2022-11-28 10:42:49
182
原创 6.1Kettle数据转换——多数据源的合并
配置表输入:id,salesArea,brand,model,unitPrice,number,输入SQL语句SELECT * FROM copany_b。2.配置csv文件输入,获取字段:id,salesArea,brand,model,unitPric。配置字段选择:id,salesArea,brand,model,unitPrice,number。工具,创建转换company_merge,添加如下控件及Hop跳连接线。配置选择/改名值控件,将valuename改名为id。6.3数据粒度的转换。
2022-11-28 10:35:24
858
原创 5.4Kettle数据的清洗与检验——数据规范化处理
配置制自定义常量数据控件,添加元数据:ProductionDate,ProductionName,ProductionNumber,CommoditySales。配置计算器控件,计算CommoditySales/ProductionNumber的值并命名为Unitprice。配置数据检验控件,添加date_verify,name_verify,price_verify检验。配置值映射,使用GENDER字段,将Male和Female分别映射为0,1。5.4.2数据规范化。
2022-11-27 11:27:05
347
1
原创 5.3Kettle数据的清洗与检验——修补异常值
配置表输入,写入SQL语句:SELECT * FROM interpolation_data。设置过滤记录条件:Height>=114 and Height
2022-11-27 11:16:04
335
原创 5.2缺失值处理
制定合理的缺失值数据处理策略,不仅可以提升缺失值数据处理的效率,还可以使处理后数据的可靠性得到保证,提高最终分析结果的准确性。缺失值的处理方法很多,这里建议大家在清洗缺失值时,首先计算数据源字段缺失值比例,之后根据数据缺失率和重要性,指定不同的策略。
2022-11-27 11:07:18
916
原创 5.1数据去重
将文本分隔符替换为一个TAB,选择字段:Name,UserLevel,Phone,VisitTime。点击“获取字段”,配置csv文件输入的属性:Name,Gender,City。配置唯一行,选择要比较去重的字段:Name,UserLevel,Phone。配置唯一行属性,选择要去重的属性:Name,Gender,City。运行结果,完全去重成功。运行结果:不完全去重成功。
2022-11-27 10:57:24
127
原创 4.2抽取web数据
配置数据库字段v1,v2,testDescription,rowID。配置自定义常量数据控件,在元数据下加入filename。配置自定义常量数据控件,在数据下写入网址。配置HTTP client控件。
2022-11-27 10:43:51
62
原创 4.1抽取文本数据
配置数据库字段:CustomerID,Gender,Age,Annual Income,Spending Score。获取字段:CustomerID,Gender,Age,Annual Income,Spending Score。
2022-11-27 10:37:54
190
原创 3.3转换(数据的抽取,转换,加载等操作)
转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,例如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳来连接的,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。1.点击文件 -> 新建 -> 转换创建一个转换,默认名称为“转换1”
2022-11-27 10:16:46
617
原创 3.3作业
例如,如何传送文件、验证数据库中的数据表是否存在等操作,这些操作都必须按照一定顺序完成,由于转换是以并行方式执行的,因此需要一个可以串行执行的作业来处理这些操作。一个作业包含一个或者多个作业项,并且这些作业项都是以某种顺序来进行执行的。作业执行的顺序由作业项之间的跳(Job Hop)和每个作业项的执行结果来决定。1.点击文件 -> 新建 -> 作业(J)新建一个作业,名称默认是“作业1”2.添加如下控件,点击文件 -> 保存,将作业名称改为example_job。
2022-11-27 10:12:29
106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅