程序员不迷路-CSDN博客

优化项作用常见手段或建议执行计划分析查看 SQL 执行路径查询缓存 & 物化视图减少重复计算、加速聚合查询启用缓存、创建物化视图Join 策略优化降低数据传输、提升 Join 效率并发与资源控制避免资源争抢、保障关键查询慢查询分析与索引定位瓶颈、提升过滤与扫描效率Bitmap、Bloom、物化视图、分区分桶同步 MV 实时更新、写入慢，适合小表实时场景；异步 MV 定期刷新、写入快，适合大表分析型查询。

2025-08-20 10:29:24 851

原创 StarRocks学习3-数据导入与同步

方式实时性吞吐量场景推荐秒级中等API 推送、小量实时写入秒级高Kafka 实时日志、业务事件流分钟级非常高历史数据、S3/HDFS 批量导入毫秒~秒级高实时计算 + 实时写入手动很低测试、小量写入StarRocks 提供灵活的导入机制，批量导入高效稳定，实时导入低延迟高吞吐，满足数仓全场景需求。StarRocks 支持多种导出方式，覆盖批量、实时、API 等场景，适合与 BI、数据湖、消息队列等系统对接。数据清洗与预处理。

2025-08-14 10:22:10 644

原创湖仓一体学习

精通湖仓一体，需要“理论 + 实践 + 工具”三位一体的积累。建议从小规模系统搭建开始，逐步深入真实业务场景中的数据建模、存储管理与查询优化。

2025-08-12 15:50:32 409

原创 StarRocks学习2-数据建模与表设计

层级关系，形成树形结构，通过“Catalog.数据库.表”的全称可唯一定位一个表。作用分工Catalog 解决“跨数据源访问”问题；Database 解决“表的逻辑分组”问题；Table 解决“数据存储与业务映射”问题。这种层级结构让 StarRocks 既能高效管理本地数据，又能无缝对接外部数据源，适合复杂数据架构下的统一查询和分析。类型是否存储数据是否自动更新查询加速实时性典型用途视图❌ 否❌ 否❌ 否实时查询简化 SQL、统一口径同步物化视图✅ 是✅ 是。

2025-08-12 15:48:39 809

原创 StarRocks学习1-基础知识

项目风险阈值最佳实践分区数（FE）> 100k控制粒度、合并旧分区tablet 数（每个 BE）> 200k控制分桶、副本数，避免碎片化tablet 大小> 10 GB控制数据写入量、合理分区分桶分布策略排序键定义了表中数据的物理排序顺序，StarRocks 会在写入数据时按照排序键的字段顺序进行组织，从而提升查询效率。特性类型是否支持说明MySQL 语法兼容✅支持大部分语法、函数、协议ANSI SQL 支持✅支持标准 SQL 查询、JOIN、窗口函数等。

2025-08-11 19:54:51 905

原创 StarRocks学习

精通StarRocks

2025-08-05 16:30:25 330

原创 hive中3种求差集的效率

1、not exists–百万级：76244ms–千万级：211103ms----亿级：294836ms2、not in–百万级：196082ms–千万级：248450ms----亿级：305112ms3、left outer joinon t1.a= t2.aand t2.a is null–百万级：333372ms–千万级：348681ms----亿级：368529ms4、注意join能处理多字段的情况左右都求差集时用 full join...

2020-08-18 18:26:57 1062

原创 hive 各种by相关的介绍

hive 各种by相关的介绍1、order byhive中的order by和传统sql中的order by 一样，会对数据做全局排序，加上排序，会新启动一个jod进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。注意：（1）：order by后面可以有多列进行排序，默认按字典排序（2）：order by为全局排序（3）：order by需要reduce操作，且只有一个reduce，无法配置（因为多个reduce无法完成全局排序

2020-08-18 18:13:59 642

原创 Hadoop Shuffle

一、大体流程Shuffle描述的是数据从Map端到Reduce端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程。二、Map端1、sortMap端的输出数据，先写环形缓存区kvbuffer，当环形缓冲区到达一个阀值（可以通过配置文件设置，默认80），便要开始溢写，但溢写之前会有一个sort操作，这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序，..

2020-05-24 14:48:20 1385

原创面试题

一、Linux1、内核2、进程通信3、Linux IO4、linux常用命令二、java1、类加载机制2、jvm内存管理3、GC4、jvm调优5、hashmap原理（红黑树）6、多线程7、高并发三、hadoop1、hadoop shuffle2、hive1、执行流程2、存储格式3、压缩算法4、不同存储格式和压缩算法下的对比5、hive行式存储和列式存储的区别6、hive仓..

2020-05-23 12:52:30 192

原创 Hadoop

Hadoop

2019-11-05 18:05:49 139

sun657053178的博客

原创 ClickHouse学习

原创前端开发学习

原创 Nginx学习

原创 Elasticsearch学习

原创 Zookeeper学习

原创 Mybatis学习

原创数据湖学习

原创 Mysql学习

原创 Kafka学习

原创 Redis学习

原创编程语言学习

原创微服务学习

原创 Hadoop学习

原创 Spark学习

原创 Flink学习

原创 StarRocks学习4-查询优化与性能调优