- 博客(22)
- 收藏
- 关注
原创 Ray + LanceDB + Daft 构建大规模向量数据分析管道
Ray + LanceDB + Daft 这套组合的核心价值在于"统一":用 Ray 统一调度,用 Lance 格式统一存储向量和结构化数据,用 Daft 统一 ETL 和分析。对于需要在大规模向量数据上同时做 ETL、分析和检索的场景,这套方案比传统的"Spark + 向量数据库"组合更轻量、更高效。推荐标签LanceDBRayDaft向量数据库分布式计算Embedding大规模数据分析ANN检索。
2026-03-10 11:31:20
382
原创 Ray 集群多用户资源隔离实践
Ray 支持自定义资源标签,可以用来实现用户级别的资源隔离。# 启动节点时声明该节点属于 team_alpha,配额 100 个单位# team_alpha 的任务声明需要自定义资源# 该任务只会被调度到拥有 team_alpha 资源的节点上这种方式可以将物理节点按团队划分,实现硬隔离。Ray 的多用户资源隔离需要组合使用多种机制:Namespace 做逻辑隔离,Placement Group 做资源预留,自定义资源标签做节点级隔离,Runtime Environment 做依赖隔离。
2026-03-10 11:31:03
345
原创 Python 实现 OSS 大文件断点续传多线程下载
多线程断点续传下载的核心就三件事:Range 请求实现分块并行、状态持久化实现断点续传、MD5 校验保证完整性。本文的实现约 200 行代码,无需额外依赖(除了 requests 和 tqdm),可以直接集成到数据管道中使用。推荐标签PythonOSS多线程下载断点续传对象存储大文件下载并发编程requests。
2026-03-06 11:01:23
343
原创 Python Kafka SASL 认证生产消费实战
Kafka SASL 认证是生产环境的必备配置。confluent-kafka 和 kafka-python 都提供了完善的 SASL 支持,配置方式大同小异。核心要点:选择合适的 SASL 机制(推荐 SCRAM-SHA-256)、妥善管理密码和证书、保持长连接以减少认证开销。把这些做好,安全和性能可以兼得。KafkaSASLPython消息队列安全认证SSLSCRAM。
2026-03-06 11:01:09
344
原创 Flask + Prometheus 实现算子服务存活监控
这套方案的优势在于轻量、标准化。Flask 探针服务只有一个 Python 文件,部署简单;Prometheus 指标格式是业界标准,可以无缝对接 Grafana 和 Alertmanager。对于中小规模的算子集群(几十到上百个服务),这套方案完全够用。如果规模更大,可以考虑将探针服务拆分为多个实例,按业务域分组监控。FlaskPrometheusGrafana服务监控Python运维微服务健康检查。
2026-03-03 14:54:51
443
原创 Python 调用私有云 OSS API 获取存储桶用量信息
私有云 OSS 的用量监控没有公有云那么开箱即用,但通过 Python + REST API 的方式可以快速搭建起来。核心要点:处理好自签名证书问题、实现 Token 自动刷新和请求重试、对接 Prometheus 实现持续监控。这套方案在我们的 AI 数据集项目中稳定运行,每小时采集一次用量数据,配合 Grafana 看板可以清晰地掌握各项目的存储消耗趋势。Python对象存储OSS私有云APIPrometheus存储监控运维自动化REST。
2026-03-03 14:52:07
395
原创 结构化 + 非结构化数据融合实战:用 XGBoost 预测用户流失
"interaction_type": random.choice(["客服通话", "在线客服", "投诉工单"]),"plan_type": np.random.choice(["套餐A", "套餐B", "5G畅享套餐", "校园卡"]),在真实场景中,客服对话的情绪信号("准备转网"、"去工信部投诉")是结构化字段无法捕捉的。"gender": np.random.choice(["男", "女"]),│ - 套餐类型 │ │ (SentenceTransformer) │。
2026-03-02 15:36:39
677
原创 光斑模拟数据增强(用 Python + OpenCV 模拟真实光斑效果:OCR 数据增强实战)
用 Python + OpenCV 模拟真实光斑效果:OCR 数据增强实战
2026-02-28 15:58:54
568
原创 Python 实现 Kafka SCRAM-SHA-256 认证:一个开箱即用的客户端封装
在企业级 Kafka 集群中,安全认证是绑定的。相比简单的 PLAINTEXT,SCRAM-SHA-256 是目前比较主流的认证方式——不需要管理 SSL 证书,配置也比 Kerberos 简单得多。但用 Python 的库对接 SCRAM 认证时,有不少坑。本文分享一个封装好的客户端类,覆盖 Producer、Consumer、AdminClient 三种场景,拿来就能用。这个封装类把 SCRAM-SHA-256 认证的重复配置收拢到一处,用的时候只需要关心业务逻辑。核心思路就是:公共认证参数提取到。
2026-02-28 15:56:35
575
原创 向量导航图与多模态数据融合
算法类型构建速度查询速度内存占用准确率(召回率)备注暴力搜索最快 (无需构建)最慢 O(N)中100%仅适用于小规模数据集树基算法 (Annoy)较快较快中较好在高维下性能下降明显哈希算法 (LSH)快快低一般适用于超高维度,但精度通常不高图基算法 (HNSW)慢极快高极高当前综合性能最好的选择如您所见,HNSW 的主要代价在于其较慢的构建时间和较高的内存占用,但这换来的是无与伦比的查询速度和极高的准确率,这使其成为现代向量搜索应用的首选算法。
2026-02-26 16:09:44
605
原创 记一次无 jmap 环境下的 P0 级 OOM 故障硬核排查
【摘要】某在线监控系统出现P0级故障,服务不定时卡死且CPU占用异常。在标准调试工具失效的情况下,通过分析发现系统陷入严重的GC抖动状态。采用"极限施压法"主动诱发OOM,成功定位到内存泄漏问题。根因分析显示业务代码中存在日期比较死循环,导致LinkedList无限膨胀。最终通过修改循环逻辑和增加边界校验解决问题,并建议保留OOM自动Dump配置作为兜底措施。本次排查凸显了在工具受限时,深入理解JVM机制的重要性。
2026-02-04 10:25:20
551
原创 AI数据集管理平台分布式算力并发扩展技术方案(Ray集群算子服务并发技术突破)
AI数据集管理平台分布式算力并发扩展技术方案(Ray集群算子服务并发技术突破)
2026-02-04 09:51:24
630
原创 昇腾 NPU 环境部署 Qwen2 大模型服务
的操作指南,用于在搭载华为昇腾(Ascend)910B NPU 的服务器上,从零开始部署 Qwen2 大语言模型,并将其作为 API 服务提供。为了保证环境的一致性和可移植性,避免因手动复制文件导致的各类“隐藏依赖”问题,我们采用 conda-pack 工具进行标准化的离线环境迁移。: 将传输过来的 Qwen2 模型文件夹放置在一个统一的位置,例如:/data/models/qwen2-7b-instruct/。的 conda-pack 流程,在外网机将缺失的包安装后,重新打包和部署环境。
2025-10-22 15:53:07
948
原创 linux下同时部署两个版本的mysql数据库
php的mysql库调用版本取决于php.ini里面的配置项目(sock路径和端口号), 修改后重启apache即可,如果调用的是mysqli则修改配置项mysqli.default_port和mysqli.default_socket。此时执行ps -ef|grep mysql可以看到两个版本的mysql同时运行中,一个是默认的3306端口,另一个是我们新部署的3308,至此,第二版本的mysql5.7.30部署完成。# === 不区分大小写 ===php调用的mysql版本配置。
2025-10-22 15:50:43
305
原创 MinIO负载均衡终极配置指南:解决桶内文件不显示、rclone迁移签名错误、性能瓶颈
MinIO集群Nginx代理问题排查与优化 文章总结了MinIO集群部署时遇到的三个关键问题及解决方案: 控制台文件消失:因缺少WebSocket支持和静态资源处理,导致页面加载异常。通过启用WebSocket通道和静态资源缓存解决。 rclone迁移签名失败:Nginx重写Host头导致签名验证错误。保持原始Host头($http_host)并传递协议头修复问题。 迁移速度慢:默认轮询策略导致单节点过载。改用least_conn负载均衡策略,增加健康检查与连接复用,提升吞吐量。 文末提供了完整的Nginx
2025-08-27 11:43:05
710
原创 解决 Nginx 反向代理中静态资源加载失败问题:Range Requests 的处理技巧
Nginx 反向代理中静态资源加载失败的问题通常是由于范围请求处理冲突导致的。通过配置让后端服务器直接处理范围请求,结合适当的缓冲和头信息传递设置,可以解决这个问题。这个解决方案适用于大多数基于 Web 的应用,特别是那些使用现代前端框架(React、Vue、Angular)和需要处理大文件的应用(如 MinIO、Ray Dashboard 等)。经验总结•当代理静态资源或大文件时,考虑禁用代理服务器的范围请求处理•确保范围请求头正确传递到后端服务器•可能需要调整缓冲设置以适应大文件传输•。
2025-08-24 19:40:17
1326
原创 手机更新后丢失root修补教程
具体 的4个命令如图所示,原boot.img文件 记得备份,如果刷机失败,可以刷回原文件,手机可正常开机使用。第三步让手机切换 到b分区启动(这个并不影响,如果不知道当前是什么分区那就在上一步ab分区都进行一次替换 ,然后尝试a分区启动一次,b分区启动一次,那个 成功就是那个分区,另外一个就不用管了,)最后最重要的来了,我的手机是ab分区的,当前系统是b分区,所以我的命令是fastboot flash boot_b 然后拖入magisk.img,即可刷入修补后的文件。完成后打开手机存储。
2023-09-27 16:12:05
20771
4
转载 使用 Python SymPy库解数学方程
上文简单介绍了SymPy库,和用SymPy库解决了初中的数学题——线性方程组,接下来可以去学习如何解决更难的数学题——微积分及矩阵化简相关习题,实验楼。
2023-09-16 11:30:00
428
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅