大数据处理技术和大数据测试
文章平均质量分 89
大数据处理技术和大数据测试
青果HA
☀
展开
-
离线数据仓库
数据中台:利用大数据技术,对海量数据统一进行采集、计算和存储、并统一数据标准和口径,该架构需要维护两套代码:离线架构代码和实时架构代码。随取随用、只有在使用时才进行数据转换等处理。数据中台:包含数据仓库和其他服务中间件。对原始数据进行清洗、转换和预处理。作为数据仓库或数据集市的数据源,更适合进行数据挖掘、探索和预测。可视化报表服务,支持历史分析。源系统导入数据、无数据流失。商业智能系统、数据仪表盘等。与定义好的数据模型相吻合。对外提供数据服务的API。原创 2023-07-14 11:21:32 · 4228 阅读 · 0 评论 -
hbase 的逻辑存储结构、物理存储结构和增删改查
hbase采用列存储,本质上是key-value存储系统,其中row key相当于key,列簇的集合相当于valuerow key用来检索记录的主键,它必须存在一张表中且唯一hbase一张表由一个或多个region组成:下图的一张表由三个region组成,按照row key的字典序排列在不同的region里列族:下表被划分为两个列族class_info(name,age,class列)和 contact_info(mobile,adress列)原创 2023-01-08 15:50:53 · 459 阅读 · 0 评论 -
实时数据处理
离线数据中,两表关联是非常简单的,因为离线关联的时候,表里的数据已经是全量的静态数据;而流式计算不一样,数据的到达是一个增量源源不断的过程,且两个流到达的顺序也是无序的。实时任务(多线程操作,并发任务,延时在ms级)中,需要 计算很多指标和维度,数据需要存放在存储系统中,方便恢复或关联;eg:去重指标的明细数据,用于发生故障时,使用数据库中的数据恢复内存现场。ETL处理后的实时结果,实时更新,写的频率高,可以被下游直接使用。非去重指标分桶:数据随机分发到每个桶,再汇总,利用的是各个桶的CPU能力。原创 2023-07-10 11:06:15 · 442 阅读 · 0 评论 -
大数据计算分析技术:批处理、流计算、OLAP引擎
大数据计算:指的是 面向业务需求 对海量数据的并行处理、分析和挖掘大数据计算的手段:通过对海量数据分片、多个计算节点并行执行、实现高性能、高可靠的数据处理原创 2023-07-13 19:55:27 · 831 阅读 · 0 评论