- 博客(26)
- 资源 (1)
- 收藏
- 关注
原创 Elasticsearch学习
精通 Elasticsearch = 核心原理 + 查询分析 + 索引机制 + 分布式架构 + 性能调优 + 实战经验。
2025-08-20 15:36:57
526
原创 微服务学习
精通微服务 = 架构设计 + 通信治理 + DevOps 能力 + 实战经验推荐框架(如 Spring Cloud、Dubbo、Istio)
2025-08-20 15:04:55
458
原创 StarRocks学习4-查询优化与性能调优
优化项作用常见手段或建议执行计划分析查看 SQL 执行路径查询缓存 & 物化视图减少重复计算、加速聚合查询启用缓存、创建物化视图Join 策略优化降低数据传输、提升 Join 效率并发与资源控制避免资源争抢、保障关键查询慢查询分析与索引定位瓶颈、提升过滤与扫描效率Bitmap、Bloom、物化视图、分区分桶同步 MV 实时更新、写入慢,适合小表实时场景;异步 MV 定期刷新、写入快,适合大表分析型查询。
2025-08-20 10:29:24
851
原创 StarRocks学习3-数据导入与同步
方式实时性吞吐量场景推荐秒级中等API 推送、小量实时写入秒级高Kafka 实时日志、业务事件流分钟级非常高历史数据、S3/HDFS 批量导入毫秒~秒级高实时计算 + 实时写入手动很低测试、小量写入StarRocks 提供灵活的导入机制,批量导入高效稳定,实时导入低延迟高吞吐,满足数仓全场景需求。StarRocks 支持多种导出方式,覆盖批量、实时、API 等场景,适合与 BI、数据湖、消息队列等系统对接。数据清洗与预处理。
2025-08-14 10:22:10
644
原创 湖仓一体学习
精通湖仓一体,需要“理论 + 实践 + 工具”三位一体的积累。建议从小规模系统搭建开始,逐步深入真实业务场景中的数据建模、存储管理与查询优化。
2025-08-12 15:50:32
409
原创 StarRocks学习2-数据建模与表设计
层级关系,形成树形结构,通过“Catalog.数据库.表”的全称可唯一定位一个表。作用分工Catalog 解决“跨数据源访问”问题;Database 解决“表的逻辑分组”问题;Table 解决“数据存储与业务映射”问题。这种层级结构让 StarRocks 既能高效管理本地数据,又能无缝对接外部数据源,适合复杂数据架构下的统一查询和分析。类型是否存储数据是否自动更新查询加速实时性典型用途视图❌ 否❌ 否❌ 否实时查询简化 SQL、统一口径同步物化视图✅ 是✅ 是。
2025-08-12 15:48:39
809
原创 StarRocks学习1-基础知识
项目风险阈值最佳实践分区数(FE)> 100k控制粒度、合并旧分区tablet 数(每个 BE)> 200k控制分桶、副本数,避免碎片化tablet 大小> 10 GB控制数据写入量、合理分区分桶分布策略排序键定义了表中数据的物理排序顺序,StarRocks 会在写入数据时按照排序键的字段顺序进行组织,从而提升查询效率。特性类型是否支持说明MySQL 语法兼容✅支持大部分语法、函数、协议ANSI SQL 支持✅支持标准 SQL 查询、JOIN、窗口函数等。
2025-08-11 19:54:51
905
原创 hive中3种求差集的效率
1、not exists–百万级:76244ms–千万级:211103ms----亿级:294836ms2、not in–百万级:196082ms–千万级:248450ms----亿级:305112ms3、left outer joinon t1.a= t2.aand t2.a is null–百万级:333372ms–千万级:348681ms----亿级:368529ms4、注意join能处理多字段的情况左右都求差集时用 full join...
2020-08-18 18:26:57
1062
原创 hive 各种by相关的介绍
hive 各种by相关的介绍1、order byhive中的order by和传统sql中的order by 一样,会对数据做全局排序,加上排序,会新启动一个jod进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。注意:(1):order by后面可以有多列进行排序,默认按字典排序(2):order by为全局排序(3):order by需要reduce操作,且只有一个reduce,无法配置(因为多个reduce无法完成全局排序
2020-08-18 18:13:59
642
原创 Hadoop Shuffle
一、大体流程Shuffle描述的是数据从Map端到Reduce端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程。二、Map端1、sortMap端的输出数据,先写环形缓存区kvbuffer,当环形缓冲区到达一个阀值(可以通过配置文件设置,默认80),便要开始溢写,但溢写之前会有一个sort操作,这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序,..
2020-05-24 14:48:20
1385
原创 面试题
一、Linux1、内核2、进程通信3、Linux IO4、linux常用命令二、java1、类加载机制2、jvm内存管理3、GC4、jvm调优5、hashmap原理(红黑树)6、多线程7、高并发三、hadoop1、hadoop shuffle2、hive1、执行流程2、存储格式3、压缩算法4、不同存储格式和压缩算法下的对比5、hive行式存储和列式存储的区别6、hive仓..
2020-05-23 12:52:30
192
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人