- 博客(29)
- 收藏
- 关注
原创 StarRocks 全面向量化执行引擎深度解析
StarRocks 的向量化执行引擎是其高性能的核心设计,相比传统行式处理引擎(如MySQL),性能可提升。理解这一设计后,可以通过合理的表结构设计和参数调优最大化性能优势。
2025-06-09 16:34:13
399
原创 深入理解 StarRocks 的查询执行模型
这种架构使得 StarRocks 既能处理简单的点查询(少量Fragment),也能高效执行复杂的分析查询(多层Fragment并行)。理解这一点对性能调优至关重要。StarRocks 的查询执行过程可以类比为工厂的流水线生产,通过分层拆解实现高效并行处理。:Fragment 的并行化实例。:查询计划的逻辑分片。
2025-06-09 15:57:53
376
原创 大数据治理的常见方式
大数据治理关键方法摘要 大数据治理包含多种系统化方法确保数据质量与安全。主要方式包括:数据质量管理(校验、清洗、标准化);元数据管理(技术/业务元数据分类);数据安全治理(分类分级、访问控制);生命周期管理(从创建到销毁全流程控制);主数据管理(建立黄金记录)。此外,数据目录可实现自助服务,合规性治理满足法规要求。实施需分阶段推进,结合组织保障和技术配套,通过持续优化释放数据价值,降低风险。不同企业应根据实际情况组合适用这些方法。
2025-06-08 14:57:45
347
原创 Python项目中添加环境配置文件
Python项目配置管理的7种主流方案对比: 1️⃣ .env文件(简单项目):python-dotenv读取环境变量,适合开发环境 2️⃣ JSON/YAML(结构化配置):支持复杂数据结构,YAML需pyyaml包 3️⃣ INI格式:标准库configparser支持,适合传统Windows应用 4️⃣ TOML(Python新宠):toml包解析,兼顾可读性和类型支持 5️⃣ 环境变量(生产推荐):直接读取os.environ,配合容器化部署 6️⃣ Pydantic模型:类型安全验证,自动加载.e
2025-06-07 13:59:52
576
原创 Conda 基本使用命令大全
Conda 是一个开源的包管理和环境管理系统,广泛用于 Python 开发、数据科学和机器学习。本文提供了 Conda 常用命令大全,涵盖环境管理(创建、激活、删除、克隆、导出/导入)、包管理(安装、卸载、更新、查看、搜索)、配置与清理(查看信息、清理缓存、修改镜像源)等核心操作。此外,还包含常见问题解答如 Conda 命令无效、Conda 与 Pip 混用、与 Jupyter Notebook 联动等技巧,帮助用户高效管理 Python 环境和依赖。
2025-06-05 19:14:20
271
原创 Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot
Redis集群报错CROSSSLOT Keys in request don't hash to the same slot解决方案 该错误是由于Redis集群模式下,多key操作涉及的key未分配在同一哈希槽。主要原因包括:不同槽的key无法保证原子性操作、影响DEL/MGET/MSET等命令。解决方案包括: 使用哈希标签({})强制统一槽位 拆分多key操作为单key命令 启用redis-cli集群模式(-c参数) 通过Lua脚本保证原子性 遍历所有节点处理通配符删除 预防建议:设计key时采用哈希标签
2025-06-04 18:46:49
693
原创 macOS 上使用 Homebrew 安装redis-cli
在 macOS 上通过 Homebrew 安装和使用 Redis 客户端工具 redis-cli 的简明指南:首先运行 brew install redis 安装完整 Redis 包(包含 redis-cli),安装后可通过 redis-cli --version 验证。连接本地 Redis 直接运行 redis-cli,远程连接需指定主机和端口。如需本地 Redis 服务,可用 brew services start redis 启动。安装后若遇到命令未找到,需检查 Homebrew 路径配置。注意 Ho
2025-06-04 17:48:15
651
原创 Fastjson2 JSONObject 序列化数据不准问题解析
Fastjson2 JSONObject序列化数据不准问题通常由大整数精度丢失、浮点数问题、日期格式和特殊字符转义导致。解决方案包括:使用字符串存储大整数、配置序列化选项、使用BigDecimal处理浮点数、明确指定日期格式以及设置RAW模式处理特殊字符。最佳实践建议明确数据类型、使用配置对象、检查版本兼容性和自定义序列化。诊断步骤包括检查原始数据类型、fastjson2版本、最小化复现案例以及与其他JSON库对比结果。这些方法可以有效解决fastjson2序列化精度问题。
2025-06-01 10:17:24
509
原创 Flink 写入 Redis 的方法与第三方库
Flink写入Redis的主要方法包括:1. 使用Flink DataStream API结合Jedis直接操作Redis;2. 推荐使用bahir-flink的Redis Connector,提供深度集成方案;3. Lettuce异步客户端适合高性能场景;4. 高级方案可结合Flink State实现批量写入;5. Redisson支持分布式特性。性能优化建议包括配置连接池、批量写入、序列化优化等。不同方案各具特点:Jedis简单易用但性能一般,Bahir Connector集成度高但功能基础,Lettu
2025-05-30 16:56:16
420
原创 mac中的.zprofile bash_profile .zshrc的区别
在 macOS 中,.zprofile、.bash_profile 和 .zshrc 是不同 Shell 的配置文件。.bash_profile 用于 Bash 登录 Shell 的环境变量设置;.zprofile 是 Zsh 的等效文件,用于登录初始化;.zshrc 则用于 Zsh 交互式 Shell 的个性化配置(如别名、插件)。从 macOS Catalina 开始默认使用 Zsh,建议将环境变量放在 .zprofile,交互式配置放在 .zshrc。检查当前 Shell 可用 echo $SHELL
2025-05-24 21:14:16
855
原创 在 Mac 电脑上检查所有 Python 版本和路径
在Mac上查看Python版本及安装位置的方法总结: 终端命令查看: which python3 查看默认路径 python3 -c "import sys; print(sys.executable)" 获取当前Python路径 ls -l /usr/local/bin/python* 查看brew安装的Python Conda环境管理: conda env list 查看所有conda环境 conda run -n env_name python --version 查看指定环境版本
2025-05-24 19:02:05
784
原创 在 macOS 上使用 Homebrew 安装 Node.js 的完整指南
本文提供了在 macOS 上使用 Homebrew 安装 Node.js 的详细指南。首先,确保已安装 Homebrew,然后通过简单的命令安装最新稳定版或特定版本的 Node.js。安装后,可以通过命令验证 Node.js、npm 和 npx 的版本。如果安装了特定版本,需手动配置环境变量。文章还介绍了如何升级 Node.js、使用 n 或 nvm 管理多个版本,以及如何卸载 Node.js。最后,提供了常见问题的解决方案,如权限问题、命令未找到和版本不匹配。通过 Homebrew 安装 Node.js
2025-05-21 22:15:41
273
原创 java中的注解保留策略
决定了注解在何时有效(源码阶段、编译后、运行时)。Java 提供了三种保留策略,通过。A:Spring 需要在运行时通过反射扫描类路径,识别带有。根据实际需求选择合适的保留策略,避免不必要的运行时开销!(如 Spring 的依赖注入、自定义业务注解)(因为它是给编译器看的,无需保留到运行时)。
2025-04-20 14:25:43
937
原创 在 Kafka 3.6.1 中,创建主题(Topic)的流程涉及多个关键步骤-源码分析
在 Kafka 3.6.1 中,创建主题(Topic)的流程涉及多个关键步骤,包括客户端请求处理、Broker 协调、元数据更新等。以下是详细流程分析,并附上关键源码片段(基于 Kafka 3.6.1 源码)。Controller 监听 ZooKeeper 或 KRaft 元数据变更,触发分区状态机更新。通过分析这些源码,可以深入理解 Kafka 主题创建的完整流程。(ZooKeeper 模式)或直接更新 KRaft 元数据。是核心方法,确保副本均匀分布在 Broker 上。负责协调主题创建,调用。
2025-03-25 15:05:23
701
原创 Lock wait timeout exceeded; try restarting transaction
2.首先想到的是删除根据时间来删除过期的数据,但是发现整个过程很慢,有一个新的任务启动了,需要尽快把最新的数据写到表里面。3.删除的过程持续了好几分钟都没有成功,就着急把客户端给强制退出了;后来再执行delete语句就会出现上面的错误。1.在处理集群迁移的过程中,有一个mysql表大约有2亿的数据,需要把这两天的数据删除了,然后再重新导入。2.中途执行了kill 线程了,导致删除操作事务处于回滚状态。1.没有根据索引来删除导致很慢。3.然后就是漫长的等待回滚了…
2025-03-12 18:25:04
229
原创 git的文件大小超限处理
如果你需要版本控制大文件,使用Git LFS是最佳方案。如果文件不需要版本控制,可以通过删除文件并清理历史记录来解决。还可以选择使用外部存储服务来存储大文件。
2024-09-09 17:39:03
1995
原创 误删除starrocks集群be节点的storage,该怎么快速恢复
发现生成集群的CPU和内存使用出现瓶颈,在测试环境模拟新增一台CN节点,再操作过程中rm -rf错误删除到第一台starrocks上,中间过程取消了命令。将fe,be下线报错,有一些表需要3个副本不能下线,先增加了一台fe和be,然后再执行下线。3台 fe与3台be混合部署在一台机器上。3.导致的影响,查询数据报错。5.优先修复导致业务报错的表。很明显是因为数据被删除了。
2024-09-04 15:28:53
364
原创 JVM 架构理解与优化思路
通过合理配置和优化 JVM,结合性能监控工具,你可以最大化 Java 应用的性能,减少内存问题和 GC 暂停时间。:将频繁执行的字节码编译为机器码,提高执行效率。JIT 优化性能显著,但会带来额外的编译时间。JVM 提供了多种垃圾回收算法和垃圾回收器,负责清理堆中的无用对象。:如 CMS(Concurrent Mark-Sweep)和 G1。:将字节码逐条解释为机器码执行。虽然速度较慢,但启动时响应快。:如 Parallel GC、G1 等。即时编译器(JIT Compiler)
2024-08-22 17:44:56
1139
原创 HttpClient的快速上手
Apache HttpClient 是一个功能强大且灵活的HTTP客户端库,广泛用于Java应用程序中进行HTTP请求和响应处理。要快速熟练地使用它,理解其整体架构和常用组件非常重要。
2024-08-09 11:39:46
595
原创 使用mysql cdc遇到的问题
是因为tableList选项值应该类似于‘my_db.my_table’。错误1:Can’t find any matched tables。
2024-01-23 10:39:00
1032
1
原创 SQL(Clickhouse)—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题
- 当前连续登录天数(求用户最后一次获取活跃的连续登录天数)from)tmpselect t1.name,count(1) as `当前连续登录天数`fromjoin( -- 没用用户的当前的最后一次活跃日期记录group by 1) as t2order by 1。
2023-09-16 13:20:40
751
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人