大数据
文章平均质量分 91
大数据领域技术分享
华为云开发者联盟
生于云,长于云,让开发者成为决定性力量
展开
-
解密数仓的SQL ON ANYWHERE技术
如果能在一个客户端中使用SQL语句操作不同的大数据组件,将极大提升使用各种大数据组件的效率。原创 2024-04-03 09:39:21 · 1516 阅读 · 1 评论 -
数仓调优实践丨多次关联发散导致数据爆炸案例分析改写
关联发散是开发常用的获取特定汇总数据的方法,但是使用这类方法意味着承担数据爆炸的风险。本篇通过一个典型案例,给出了“求所有值中大于本行值的最小值”的一个调优方案。原创 2023-12-12 17:55:01 · 215 阅读 · 0 评论 -
手把手带你玩转HetuEngine:资源规划与数据源对接
本篇文章将手把手带你进行资源规划和数据源对接,开启玩转HetuEngine。原创 2023-08-18 17:28:23 · 431 阅读 · 0 评论 -
云小课|MRS基础操作之集群健康检查
MapReduce服务为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。集群中的FusionInsight Manager将提供企业级的集群的统一管理平台。原创 2023-10-10 09:36:56 · 392 阅读 · 0 评论 -
FQS:一种神奇的数仓查询优化技术
如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY" 到底代表什么意思?原创 2023-12-13 17:14:39 · 246 阅读 · 0 评论 -
GaussDB(DWS)网络调度与隔离管控能力
调度算法是调度器的核心,设计调度算法要充分考虑业务场景和用户需求,没有万能的调度算法,只有合适的调度算法。原创 2023-04-04 15:22:14 · 555 阅读 · 0 评论 -
云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据
Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介绍如何使用MRS集群运行Spark Streaming作业消费Kafka数据。原创 2023-02-23 16:31:13 · 736 阅读 · 0 评论 -
过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维
华为云站点数字化平台CloudMap携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。原创 2023-03-31 11:35:48 · 895 阅读 · 1 评论 -
MRS大企业ERP流程实时数据湖加工最佳实践
本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进。原创 2023-08-11 10:00:30 · 449 阅读 · 0 评论 -
云图说 | MSSI之应用业务模型ABM,搭建业务与技术的数据治理桥梁
应用业务模型ABM(Application Business Model)是MSSI为客户提供的统一模型管理服务。原创 2023-03-30 15:47:25 · 550 阅读 · 0 评论 -
聊聊简单又不简单的图上多跳过滤查询
多跳查询能力也是一个衡量产品性能非常重要的指标。原创 2023-04-13 15:24:48 · 530 阅读 · 0 评论 -
云小课|MRS基础原理之Hue组件介绍
Hue是一组WEB应用,用于和MRS大数据组件进行交互,能够帮助用户浏览HDFS,进行Hive查询,启动MapReduce任务等。它承载了与所有MRS大数据组件交互的应用。原创 2023-02-24 11:32:04 · 521 阅读 · 0 评论 -
MRS+LakeFormation:打造一站式湖仓,释放数据价值
华为LakeFormation是企业级的一站式湖仓构建服务原创 2023-02-14 16:51:35 · 530 阅读 · 0 评论 -
带你快速上手HetuEngine
HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎。原创 2023-08-18 16:36:04 · 476 阅读 · 0 评论 -
一文详解数据仓库的物理细粒度备份恢复
华为云技术专家带你读懂数据仓库的物理细粒度备份恢复,包括它的优势、恢复的基本流程和具体使用实践。原创 2023-09-18 14:19:22 · 357 阅读 · 0 评论 -
云小课|MRS基础操作之配置DataNode容量均衡
当HDFS集群出现DataNode节点间磁盘利用率不平衡时,会导致MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率等问题。因此管理员需要定期检查并保持DataNode数据平衡。原创 2023-02-15 16:05:33 · 560 阅读 · 0 评论 -
数据高速公路:详解数仓集群通信技术
深入讲解GaussDB(DWS)集群通信技术,如何在大规模集群中承载高并发业务,如何实现高性能分布式通信系统。原创 2024-01-05 10:19:06 · 704 阅读 · 1 评论 -
华为云HBase冷热分离最佳实践
冷热分离功能支持将冷热数据存储在不同的介质上,可以大大降低存储成本,HBase支持对同一张表的数据进行冷热分离存储。原创 2023-09-25 14:21:35 · 503 阅读 · 0 评论 -
详解MRS HBase全局二级索引
与结构化数据库相似,HBase二级索引就是为了提升此类条件查询场景性能:查询条件无法精确/模糊匹配rowkey(类似于DB主键),同时严格要求查询时延。原创 2023-12-27 09:02:30 · 1508 阅读 · 0 评论 -
实战指南,SpringBoot + Mybatis 如何对接多数据源
本文以一个单数据源的Demo为例,讲述将其改为多数据源项目的过程,希望大家能有所体会。原创 2023-09-28 10:56:53 · 660 阅读 · 0 评论 -
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新
HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。原创 2023-06-20 14:53:48 · 581 阅读 · 0 评论 -
云小课|MRS基础原理之Flink组件介绍
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。原创 2023-02-21 14:51:03 · 629 阅读 · 0 评论 -
华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。原创 2023-02-08 11:02:27 · 746 阅读 · 0 评论 -
Trino容错模式深度测评与思考
Trino是一款开源的高性能、分布式SQL查询引擎,专门用于对各种异构数据源运行交互式分析查询,支持从GB到PB的数据量范围。原创 2023-10-13 17:47:04 · 554 阅读 · 0 评论 -
GaussDB(DWS)中的分布式死锁问题实践
出现分布式死锁现象后,如果没有外部干预,通常是一方等待锁超时报错后,事务回滚清理持有锁资源,另一方可继续执行。原创 2023-12-27 09:01:08 · 558 阅读 · 0 评论