抛砖引玉----个人大数据测试小结

最新推荐文章于 2024-09-25 14:24:05 发布

test_soy

最新推荐文章于 2024-09-25 14:24:05 发布

阅读量1w

点赞数 3

分类专栏：大数据工具文章标签：大数据大数据测试测试方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/test_soy/article/details/52025292

版权

大数据工具专栏收录该内容

11 篇文章 0 订阅

订阅专栏

最近一直想在大数据方面做更为全面的测试，但是涉及这一块目前资料较少，所以抛砖引玉，希望有同行互相交流

1.ETL测试

ETL， Extract-Transform-Load 的缩写，将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程.

ETL工具较多，用过的是informatica.它从目标表抽取数据加载到结果表 hive<-->数据库.

测试思路:

a.测试抽取的符合条件的数据总量；

b.报表字段类型转换测试；

c.报表字段特殊值测试(空,null,复合型字符)；

d.根据sql过滤条件进行造数测试；

e.根据业务场景进行造数测试；

f.开发创建的报表/报表字段和测试报表进行对比测试；

g.开发条件过滤sql初步遍历看有无明显语法错误测试；

h.报表拉数耗费时间测试；

j.报表大批量数据拉取性能测试.

用过informatica的同学都知道它有四个界面段，基于开发写的sql，报表字段,数据库连接串，errorlog都能从里面获取到信息，建议当工具拉数报错时，自己能更改的错误自己就直接改了（当然事后别忘记告诉开发更新）。

2.Linux环境的shell脚本测试.

一般shell脚本都是基本数据库-->hive-->数据库的过程，也就是 hive的一个import 和 export的过程，需要涉及的知识面：基本的linux命令，shell脚本命令，hivesql，hdfs命令.

因为shell脚本测试有些时候是基于需要直接更改报表在hdfs路径下的数据文件，本人是建议测试完全掌握这一块的，毕竟公司部门的shell脚本一般都是有一个统一格式的.

测试思路:

1.遍历shell脚本查看开发输出的脚本是否正确(命名规范，脚本内容，调用函数，日志打印，异常检查机制)；

2.遍历oracle/mysql/hive等建表语句(包含报表名称，报表字段，报表hdfs路径，索引创建，分区创建)；

3.import/export报表数据总量；

4.import/export报表数据的脚本运行时间；

5.数据库--hive 的数据类型转换；

6.历史数据报表的历史数据量；

7.一些简单的sql语句优化..

hive报表主要涉及的都是一些数据传输过程，然后在hive里面使用sql进行一些逻辑计算，最后得出结果再把数据传输出去，所以主要关注点都在hive这一块。

3.kafka/scala

这个是目前正在做的项目，涉及到的kafka以及scala语言均需要补充新知识，scala语言相对好一点，是类似sql的一种写法，主要是在kafka中进行计算然后进行一个接口数据传输，从测试角度来看，涉及到：需求确定的逻辑计算方式，需求确定的各字段名称，需求确定的取数范围(标识，时间，状态)，考虑报表历史数据量大小对性能的影响，基于服务器大小对各报表历史数据保存时间的确定，json串数据传输.

(私人讨论总结，请转载注明出处，谢谢！)

性能方面，个人感觉服务器大小配置会很大程度上影响到数据的传输速度，数据的处理速度，也就是说，客户看到需要的数据的时间会根据服务器的配置来进行延长或缩短，而作为测试，目前一直思考的也是这块的，如何在排除服务器配置的情况下，能更好的测试处代码计算的性能是一直在想的问题，因为这一块也没找到比较有用的对比资料以及参考指标.

test_soy CSDN认证博客专家 CSDN认证企业博客

码龄9年

61: 原创

52万+: 周排名

195万+: 总排名

87万+: 访问

: 等级

5991: 积分

252: 粉丝

255: 获赞

41: 评论

1598: 收藏

私信

关注

热门文章

分类专栏

hive 12篇
缺陷系统 1篇
数据库 8篇
web前端 4篇
loadrunner
QTP
公司流程规范 4篇
Hadoop 13篇
Linux 21篇
oracle 7篇
SQL语句 8篇
java 1篇
测试 8篇
html 7篇
mysql 6篇
jetty 3篇
大数据工具 11篇
python 21篇
IOS
Android 1篇
接口 1篇
jmeter 2篇
zookeeper 1篇
kafka 3篇
selenium 4篇
python题目 13篇

最新评论

Python3 读取和写入excel xlsx文件使用openpyxl
wq_0708: 想问，这个如何合并单元格？像往一行里写入列表，有些元素可能是跨单元格的
Python 读取csv的某列
薛冰清: 可以这么写呀 column = [row[5] for row in reader] column2=[row[10]for row in reader]
Python 读取csv的某列
weixin_51233564: 请问，为什么我用for循环批量打开文件夹下的csv文件，然后就提示column那列list index out of range了呢？？
Python 读取csv的某列
weixin_51233564: 你好，请问你的问题解决了吗
python题目-水仙花数
小麻鸡儿: 可否写个通用的，直接输入几位，然后就出结果的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。