大数据测试
文章平均质量分 63
马小胖测试历险记
卑微测试从业者,愿生活里没有bug!
展开
-
Clickhouse的SQL查询监控机制调研
Clickhouse的SQL查询监控机制调研原创 2022-09-21 19:24:52 · 965 阅读 · 0 评论 -
Flink SQL解析嵌套Json数据测试过程调研
Flink SQL解析嵌套JSON数据原创 2022-09-21 19:17:57 · 1380 阅读 · 0 评论 -
Doris介绍-转载收藏学习用-非原创
Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!Apache Doris 核心特性: Doris 的整体架构和 TiDB 类似,借助 MySQL 协议,用户使用任意 MySQL 的 ODBC/JD转载 2022-06-17 13:12:18 · 3057 阅读 · 0 评论 -
基于测试角度理解kakfa
kafka入门理解原创 2022-06-02 20:14:42 · 123 阅读 · 0 评论 -
VictoriaMetrics时序数据库调研
VictoriaMetrics时序数据库原创 2022-05-20 17:51:08 · 690 阅读 · 0 评论 -
Promethuse语法总结(PQL)
Promethuse语法总结(PQL)原创 2022-05-20 17:09:31 · 2483 阅读 · 0 评论 -
ES查询语法总结
ES查询语法总结原创 2022-05-20 17:01:32 · 2740 阅读 · 0 评论 -
mysql存储过程制造测试数据模板总结
一、日期获取1、获取昨日日期数据select date_sub(curdate(),interval 1 day)2、获取本周周一日期数据select date_format(subdate(curdate(),if(date_format(curdate(),'%w')=0,7,date_format(curdate(),'%w'))-1),'%Y%m%d')3、获取上月日期数据SELECT CONVERT(LEFT(period_add(CURDATE(),1), 6), UNS原创 2021-03-09 16:22:02 · 255 阅读 · 1 评论 -
Sqoop数据导入导出命令总结
一、导入导出基本命令1、列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://10.X.X.X:3306/ --username root --password 123456 2、连接mysql并列出数据库中的表命令 # sqoop list-tables --connect jdbc:mysql://10.X.X.X/test --username root --password 123456 命令...原创 2021-03-03 13:42:34 · 1287 阅读 · 0 评论 -
数据仓库——数据分层基础总结
一、什么是数据仓库、数据为什么要分层1、数据仓库:数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策2、为什么要分层?清晰数据结构:每个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径 复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题二、数据仓库分层介绍1、数原创 2021-01-18 14:23:26 · 933 阅读 · 0 评论 -
基于测试人员角度理解Hadoop---MapReduce架构
导语:其实并没有接触过基于mr编程的离线数据业务的测试,只是基于想了解底层架构的角度,通过一些大佬的文章总结整理记录下MapReduce的基本工作流程一、什么是MapReduce1、MapReduce->分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序需,并发运行在一个hadoop集群上2、核心思想:分而治之Map:负责分,拆分成小任务并行计算Reduce:负责合,map阶段结果全局汇总整体:将一个复杂的大任务,分割.原创 2021-01-02 19:28:19 · 92 阅读 · 0 评论 -
Python-Faker-制造测试数据实例及常用方法总结
一、通过Faker制造测试数据实例import pymysqlfrom faker import Fakerconn = pymysql.connect(host="XX", port=3306, user="root", password="1qaz@WSX", db="XX", charset="utf8")cursor = conn.cursor()sql1 = """drop table if exists faker_user"""原创 2021-01-01 13:46:33 · 553 阅读 · 0 评论 -
HDFS(五)---其它功能介绍
----尚硅谷大数据学习笔记整理记录一、HDFS小文件存档1、弊端:大量小文件会消耗NameNode中的大部分内存,造成低效2、解决办法1)将小文件整合存档为:HDFS存档文件或HAR文件用法:# 用法#1.创建归档文件archive -archiveName <NAME>.har -p <parent path> [-r <replication factor>]<src>* <dest>bin/hadoop ar原创 2020-12-29 17:09:37 · 150 阅读 · 0 评论 -
HDFS(四)----DataNode工作机制
----尚硅谷笔记学习整理一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、快数据的校验和,以及时间戳,2、DataNode启动后向NameNode注册,通过后,周期性的向NameNode上报所有的块信息3、心跳是每三秒一次,心跳返回结果带有NameNode给该DataNode命令如复制块数据到另一台机器,或删除某个数据块,如果超过10分钟没收到某个DataNode的心跳,则认为该节点不可用4原创 2020-12-28 13:36:55 · 102 阅读 · 0 评论 -
HDFS(三)-----NameNode与Secondary NameNode
一、NameNode的元数据存储在哪里?1、NameNode的元数据如果存在内存中,如果断电,会造成数据丢失,所以引入-----FsImage2、然后如果元数据更新频率过多,效率过低,而且断电依然会造成数据丢失,所以引用----Edit文件(追加效率很高,每当元数据更新,修改元数据)3、这样,NameNode就必须经常进行FsImage和Edit文件的合并,这样效率过低,所以引用了Secondary NameNode辅助NameNode进行备份机制二、NameNode的工作机制1、第原创 2020-12-26 18:54:00 · 208 阅读 · 0 评论 -
HDFS(二)----数据读写流程
一、HDFS写入流程1)客户端通过 Distributed FileSystem 模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在2)NameNode返回是否可以上传3)客户端请求第一个Block上传到哪几个DataNode服务器上4)NameNode返回三个DataNode节点,分别为dn1、dn2、dn35)NameNode通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3原创 2020-12-25 17:21:47 · 133 阅读 · 0 评论 -
HDFS(一)----概述以及常用命令总结
一、HDFS使用场景适合一次写入、多次读出的场景,且不支持文件的修改,适合用来做数据分析。二、HDFS的优缺点分析 1、优点高容错性:数据自动保存多个副本,通过增加副本的形式,提高容错性;某一个副本丢失后,它可以自动恢复 适合处理大数据:适合处理甚至PB级别的数据,百万规模以上的文件数量 可构建在廉价机器上,多副本机制,提高可靠性 2、缺点不适合低时延数据访问,比如毫秒级别的存储数据 无法对大量小的文件进行存储:NameNode的内存优先,小文件存储的寻址时间会超...原创 2020-12-25 13:08:13 · 260 阅读 · 0 评论 -
Hadoop伪分布式测试集群搭建总结
导语:Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。因为我的电脑带不动三个虚拟机,所以没办法搭建三个节点的完全分布式集群,所以本文主要记录Hadoop伪分布式测试集群的搭建过程!基于centos7+Hadoop2.7.5一、安装虚拟机,以及配置centos7镜像,基本步骤省略,主要介绍相关网络配置1、虚拟机编辑网络为以下模式VMnet8IP地址:192.168.83.22、进入虚拟机,ip addr查看分配的ip地址原创 2020-12-24 13:16:54 · 893 阅读 · 1 评论 -
原来大数据工作流程可以这样理解------生米煮成熟饭!
碎碎念 我是一名测试工程师,目前做测试两年多的时间里,接触的最多的测试工作,就是数据业务相关的测试,了解到了很多大数据相关的技术,认识了很多大数据相关的同事,在对数据相关业务测试的过程中,我发现它不仅仅像传统测试考验你的业务逻辑思维,更考验的你是对大数据相关业务流程的理解,那这个看似抽象的大数据,我们每天都在说的数据时代,作为一名测试工作者,我们应该从哪里开始去升级自己的知识储备,去跟上这个时代呢,最近我看了很多CSDN博主以及公众号上一些优秀的前辈发表的言论,发现原来大数据的流程还可以这样理解-----原创 2020-12-19 17:28:28 · 532 阅读 · 1 评论 -
Mysql存储过程制造测试数据过程学习与总结
Mysql存储过程存储过程是在大型数据库系统中,一组为了完成特定功能得SQL语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程得名字并给出参数,来执行它一、Mysql存储过程:1、定义变量DECLARE var_name[,...] type [DEFAULT value]定义一个变量,游标到底时才会改变eg:DECLARE my_sql I...原创 2020-11-21 13:51:19 · 180 阅读 · 0 评论 -
Hive&Kylin数据源总结
Hive&Kylin一、HiveHive就是对hdfs的数据进行mapreduce操作。hive就是一个数据仓库,运行时元数据信息存储在关系型数据库。(HSQL)1.Hive与数据库的异同:查询语言。由于 SQL 被广泛的应用在数据仓库中,因此专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。 ...原创 2020-11-21 13:43:37 · 1794 阅读 · 0 评论 -
Mysql&Oracle数据源总结
Mysql&Oracle一、Mysql1.关系型数据库:mysql2.主要使用过得工具:navicat3.连接方式:ssh,主机、端口号、公钥、私钥验证/直连4.基本sql语句1)创建表:create table s(name varchar(10))2)删除表:drop table 表名3)查询:select */a,b/...原创 2020-11-21 13:35:02 · 152 阅读 · 0 评论 -
Hbase、ES数据源调研总结
ES&Hbase(一)、OLTP、OLAP数据处理大致可以分为两大类:联机事务处理OLTP、联机分析处理OLAP。1、OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如:银行交易。2、OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP通过多维的方式对数据进行分析、查...原创 2020-11-21 13:31:21 · 673 阅读 · 0 评论 -
大数据测试过程总结
一、大数据:大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要用各种工具、技术、框架进行处理。大数据涉及数据创建,存储、检索、分析,而且它在数量、多样性、速度方面都很出色。二、大数据的测试类型:验证其数据处理、性能和功能测试是关键处理:批量、实时、交互 数据质量测试:字段一致性、准确性、重复性、有效性、数据完整性 性能测试三、大数据的测试步骤:step1:数据阶段验证:pre-Hadoop阶段,数据预测试阶段1、来自各方面的数据资源应该被验证,来确保正确转载 2020-11-21 13:25:27 · 1825 阅读 · 0 评论