大数据测试常见缺陷

最新推荐文章于 2023-08-16 14:54:15 发布

lily小辣椒

最新推荐文章于 2023-08-16 14:54:15 发布

阅读量268

点赞数

文章标签： sql 大数据 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41324318/article/details/128970636

版权

数据更新不及时

上游任务每小时调度，ads每天只调度一次，导致指标更新不及时。

数据范围限制错误

昨日新增没有限制首单日期是昨日，本月新增没有限制首单日期是本月，导致输出指标结果偏大。

数据重复、指标膨胀

一般是join导致的，测试的时候需要关注join左右的字段是否唯一。

指标口径不准确

合作方今日待办，(活动)7日内将到期商品数，没有按需求限制状态为【审核通过】。导致结果偏大。

多关联或者少关联了一些表也会导致数据范围不正确。

过程数据总数接口-按员工和按部门查的时候口径不一致，导致员工创建的达人不等于部门创建的达人之和。

函数使用不当

count（case when 条件满足 then order_Id else 0）：此处的else 0导致结果偏大1，应该用else null。

rank() row_number() dense_rank()

udf函数需要做根据函数编写逻辑对不同入参做场景覆盖

分区入参不对

部分指标计算的时候应该取哪个分区有讲究

近实时的数据关联离线表取值的时候入参没有往前推一天，导致离线表的信息没有取到

id过大用bigint存不下导致的失真

2表join的时候关联字段数据类型不一致（string bigint），导致部分合作方指标计算错误

作业依赖关系不当

任务调度时间和依赖关系问题导致待交作业数、作业完成率没有正确写入mysql。

精度丢失

销售数据-精度丢失导致服务费为0.001的订单绿色gmv算成了0，4996543044102920039。

临界值问题

0906分区的数据，8月30号有过动销行为，算不算近7天有过动销行为的用户？

现有代码是算进去了，我觉得不应该算

标签定义优先级问题

用户既同时满足“核心”和“引入”的定义，应该标记为核心用户而不是引入用户。

兜底逻辑缺失

实际工作往往会遇到一些意料之外的脏数据，所以在做数据清洗、指标计算的时候要有兜底逻辑。

ck一般不允许存null 值

表结构定义不当

维度过细、维度缺失、指标漏统计

业务逻辑理解不透彻导致的缺陷。

计算一小时内司机的在线时长，（在线时长=下线时间-开始服务时间），某一个小时内的没有开始服务时间，时计算错误。

审核通过时间没有取首次认证审核通过时间。

没有成单记录的用户错误的算成了成单新用户

redis数据存储排行榜信息的时候缺少落榜删除逻辑

司机变更加盟商导致a加盟商的在线时长算在了b加盟商下

2人同时扫码支付一个订单时订单收入流水表多算了一笔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据测试常见缺陷

精度口径重复兜底表结构优先级函数
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。