2024年最新大数据测试之ETL测试入门_etl的测试能力,大数据开发快速转战Kotlin教程

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

ETL测试是为了确保从源到目的地数据经过业务转换完成后是准确的。

同时它还涉及数据的验证,即从源到目的地数据各个不同阶段验证数据。

ETL是Extract-Transform-Load的缩写。

ETL测试过程

与其他测试过程类似,ETL也需要经历不同的测试阶段。其流程如下:

ETLTestingProcess.png

ETL测试过程主要分为以下五大阶段:

  1. 分析需求、业务和源数据
  2. 获取数据
  3. 实现业务逻辑和维度建模
  4. 构建和填充数据
  5. 生成报告

ETL测试类型

  1. Production Validation Testing
    该类型的ETL测试是在数据迁移至生产系统时进行的。为了保证生产业务的正常运营,生产系统中的数据必须以正确的顺序进行排序。在该ETL测试类型中要注意从数据层面进行自动化测试和管理能力的植入。
  2. Source to Target Testing(Validation Testing)
    该类型的测试主要元组转换的数据是否满足预期的转换目标
  3. Application Upgrades(升级测试)
    该类型的ETL测试是可以自动生成的,能节省大量的测试开发时间。主要检查旧应用或存储库中提取的数据是否与新的应用或新的存储库中的数据完全相同。
  4. Metadata testing(元数据测试)
    元数据测试包括数据类型检查、数据长度和索引/约束检查。
  5. Data Completeness Testing(数据完整性测试)
    当把所有期望的数据从源加载到目标地时,就算完成了数据完整性测试。在数据完整性测试过程中,我们还可以进行一些简单的转换或无转换的源与目标之间的计数、聚合和实际数据比较和验证的测试。
  6. Data Accuracy Testing(数据准确性测试)
    该类型测试验证数据正确的完成加载和按预期目标进行转换。
  7. Data Transformation Testing(数据转换测试)
    测试数据转换是一个复杂的过程,并不是简单的写一个源SQL查询并与目标进行比较来实现的。可能需要为每个行运行多个SQL查询,来验证转换规则
  8. Data Quality Testing(数据质量测试)
    数据质量测试包含语法和基准测试。为了避免在业务过程中由于日期或唯一编号(例如订单号)引起的错误,进行数据质量测试。
  • 语法测试:根据无效字符、字符模式、不正确大小写、顺序等出具脏数据测试结果
  • 基准测试:基于数据模型检查数据,例如客户ID数据质量测试,包含:数字检查、日期检查、精度检查、数据检查、零校验等等
  1. Incremental ETL Testing(增量ETL测试)
    该类型测试主要验证旧数据和新数据的完整性,并添加新数据。增量测试验在增量ETL过程中,插入和更新是否满足预期的要求。
  2. GUI/Navigation Testing
    该类型测试主要检查生成的大数据报告的UI\导航方面是否正常

怎么创建ETL测试用例

ETL测试是一个可以应用于信息管理领域中不同工具和数据库的概念。

ETL测试的目的是确保在业务转换完成后从源加载到目的地的数据是正确无误的。

ETL测试同样还涉及在源和目的地之间转换时的各个阶段的数据的验证。

在从事ETL测试时,有两份文档是ELT测试人员实时使用的:

  1. ETL映射表:一个ETL映射表包含源和目的地表的所有的信息,包括每个列及其引用表等约束关系。ETL测试人员需要更为优美的SQL查询语句,因为在ETL测试各阶段可能需要编写具有多个连接的大查询来验证数据。ETL映射表在为数据验证编写查询时提供大量的有用的信息。
  2. 源、目标数据库模式:该模式应该便于验证映射表中的所有细节。

ETL测试场景和测试用例

序号测试场景测试用例
1Mapping Doc Validation(映射文件验证)验证映射文件是否提供了响应的ETL信息,且每个映射文档的更新日志有记录
2Validatioin(验证)1. 根据对应的映射文件验证源与目的地数据仓库的表结构2. 验证源和目标数据的类型一致3. 验证源和目标数据的长度一致4. 验证数据字段类型和格式是指定的类型5. 验证源的数据类型长度不应小于目标数据类型长度6. 针对映射表对数据表的列的名称进行验证
3约束验证验证目标表中的约束关系满足我们的期望设计
4数据一致性问题1. 要防止语义定义相同,但特定属性的数据类型和长度不一致的问题2. 防止完整性约束滥用
5完整性问题1. 要确保所有期望的数据都已经完整的加载到目标表中2. 要比较源和目标数据的个数(即确保计数上的完整)3. 检查出现的任何不合格的记录4. 检查目标表列中的数据没出现被截断的情况5. 对边界值进行分析检查6. 要检查比较目标数据仓库和源数据的关键字段的唯一性
6正确性问题1. 数据要没有拼写错误或不准确的记录2. 无null、非惟一或超出范围的数据记录存在
7转换验证转换逻辑的正确性
8数据质量1. 数值型验证,验证是否为数值类型2. 日期型验证,验证是否为日期格式,并且在所有日期类型数据的格式应该统一3. 精度验证,小数点的精度要满足期望的精度4. 数据检查:检查数据的正确性,完整性5. null检查
9拷贝验证1. 验证目标表中业务要求所有惟一性指标均正确的实现(例如主键、惟一标识的键、或其他任一惟一表示的列)2. 验证从源数据多列合并而成的数据是正确的3. 验证仅仅根据客户要求对源数据进行了多列合并至目标表中
10日期验证日期是ETL开发过程中常用的数据,主要用于:1. 了解数据行创建的日期2. 用于识别活动记录3. 根据业务需求透视表确定活动记录4. 便于基于时间插入、更新记录
11数据完整性验证在验证源和目标表中的数据集的完整性时,我们需要用到交集运算,以确定目标数据的完整性
12数据清理对于不需要的列在载入至数据仓库前应该进行删除

ETL的bug类型

序号bug类型描述说明
1用户接口bug1. 主要涉及应用的GUI2.字体、样式、颜色、对齐、拼写错误、导航等等
2边界值bug数据的边界值范围
3等价类划分bug有效和无效类
4输出/输出bug1.未接受的有效值2. 无效的值被接受
5计算类bug1. 数学计算错误2. 最终输出错误
6载入条件bug1. 不运行多用户操作2. 不运行用户载入期望的数据
7崩溃bug1. 系统宕机或挂起2. 系统无法运行在用户的平台上
8版本控制bug1. 无匹配标识2. 没有可用的版本信息3. 一般版本控制bug发生在回归测试时
9硬件问题一般发生在应用程序不兼容设备
10文档错误bug错误的帮助文档信息

ETL测试与数据库测试的不同

序号ETL测试数据库测试
1验证数据是否按照预期进行了移动主要验证数据是否遵循了设计预定的数据模式规则或标准
2验证数据经过业务转换后是否满足预定的转换逻辑以及验证源和目标数据计算是否一致主要表的主、外键等越苏是否正常
3验证ETL过程数据表的主外键关系是否保存验证没有冗余表,数据库最佳化
4验证已载入的数据拷贝是否满足预期验证需要的是否缺少数据

ETL测试工程师的主要责任

对于一个ETL测试工程师而言,其关键的责任有三大类:

  • 源数据分析(数据库、文本等类型数据分析)
  • 业务转换逻辑实现
  • 将经过转换的数据载入至目标表

其他有:

  • 掌握ETL测试软件
  • ETL数据仓库测试组件
  • 在后端执行数据驱动测试
  • 创建、设计、执行测试用例、计划等

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值