自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 spark性能优化

2024-04-10 10:52:26 278 1

原创 数据倾斜处理

2024-04-10 10:49:11 329 1

原创 DAG(有向无环图)

2024-04-10 10:40:57 154 1

原创 CoGroupRDD

2024-04-10 10:20:58 125 1

原创 reduceByKey 与 GroupByKey

2024-04-10 10:20:15 314 1

原创 spark RDD

2024-04-10 10:19:03 89 1

原创 spark组件

2024-04-10 10:17:37 109 1

原创 spark执行流程

2024-04-10 09:42:27 229 1

原创 OLAP 和 OLTP总结

OLAP和OLTP不一定要分离,很多企业会整合在一起,通过数据集成、数据分层和数据应用搭建统一的数据平台。需要支持复杂的数据操作,如数据切片、数据透视、聚合、统计分析等。数据通常是只读的,也可以支持高级的数据可视化操作和动态查询。通常只有汇总后的结果,而汇总分析过程通常可以执行很久。应用场景:日志分析、深度挖掘。市场分析、销售分析、供应链分析。应用场景:日常业务操作。银行、财务、在线购物、航班预订。数据量通常非常大,多维数据分析和查询。通常只有添加和查询操作。要求绝对的事务完整性。增删改查一般都会涉及。

2024-03-26 14:15:32 187

原创 为什么要用数据湖iceberg?

2.2 lamda架构(批式处理+流式处理,离线+实时)为了解决当前 数仓 平台的痛点。2.3 kappa架构(流式处理,实时)2.1 传统数仓(批式处理,离线)3. 数据湖解决了什么问题。4.什么是iceberg。1.数据湖是干什么的?2.当前数仓平台的痛点。

2024-02-15 16:41:50 416

原创 Doris常见问题

3、executing msg:>, backend 172.24.47.117 process memory used 2.68 GB, limit 2.47 GB:本次内存申请的位置是ExecNode:VAGGREGATION_NODE (id=7)>,当前BE节点的IP是 172.1.1.1,以及再次打印BE节点的内存统计。1、Memory limit exceeded::当前正在执行query 3c88608cf35c461d-95fe88969aa6fc30的内存申请过程中发现内存超限。

2024-02-15 16:29:05 2629

原创 Doris常用函数

- 2023-07-10 06:19:54 返回当前(国际标准时间)UTC日期和时间在 "YYYY-MM-DD HH:MM:SS" 或 "YYYYMMDDHHMMSS"格式的一个值。

2024-02-15 16:27:07 3346

原创 数据库结构设计

用户需求收集分析。

2024-02-15 16:25:39 1401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除