自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 无障碍前端组件实践(下):复杂组件落地与全流程工具链

我们搞定了按钮、色彩、卡片等基础组件的无障碍实践,而复杂组件(如模态框、表格、标签页)往往是无障碍的 “重灾区”—— 不仅要处理交互逻辑,还要兼顾焦点管理、屏幕阅读器播报等细节。本文将聚焦复杂组件落地技巧,再搭配测试、资源工具链,帮你构建 “全链路无障碍” 的前端产品。

2025-11-06 22:08:16 832

原创 Ubuntu 22 下 DolphinScheduler 3.x 伪集群部署实录

DolphinScheduler 目前仅支持 Java 8 或 Java 11,不兼容 Java 17 及以上版本。ZooKeeper 是 DolphinScheduler 的注册中心组件,所有 Master 和 Worker 节点都依赖它进行调度与注册。DolphinScheduler 默认不会自动初始化数据库结构,因此推荐手动执行 SQL 脚本。使用官方 APT 源在 Ubuntu 22.04 上安装 PostgreSQL。Hadoop、Spark、Flink 等任务相关配置可按需注释或保留默认值。

2025-11-06 22:07:45 273

原创 Meilisearch — Rust 打造的轻量级搜索新锐

Meilisearch 的出现,代表了新一代搜索引擎对于开发者体验和即时性的追求。它在应用内搜索领域展现了强大的竞争力,证明了不必依赖 Lucene 的庞大体系,也能打造出极致性能的搜索产品。虽然它还无法完全取代 Elasticsearch 在日志分析、可观测性等大型分布式场景的地位,但在许多新兴应用和对搜索速度有极高要求的场景中,它无疑是一个值得尝试的开源新星。

2025-11-05 19:25:59 830

原创 巾帼力量助力 Flink 引擎 CDC 源模式演进支持 | Apache SeaTunnel 开源之夏成果

​ 这样确保 SchemaCoordinator 先创建好 schema change state,之后请求的时候就不会返回空,然后算子将 FlushEvent 被发送到下游,下游处理完 FlushEvent 后,因为此时 state 已经存在,就可以成功通知 SchemaCoordinator,SchemaCoordinator 收到通知后,完成 schema change 的 CompletableFuture,之后 processSchemaChangeEvent 方法的等待结束,继续执行后续流程。

2025-11-05 19:25:23 846

原创 用 “小粒度块”(如句子 / 短句)做高精度召回,定位到最相关的微片段

单一策略难覆盖所有文档与场景。混合分块通过 “先粗后细、按需细化”,在效率、可追溯性与答案质量之间取得稳健平衡。

2025-11-04 19:26:38 755

原创 可提升对 “谁说的、在哪段说的” 的判断力。

该方法不依赖文档的物理结构,而是依据语义连续性与话题转移来决定切分点,尤其适合希望 “块内高度内聚、块间清晰分界” 的知识库与研究类文本。

2025-11-04 19:25:58 632

原创 Apache SeaTunnel 新定位!迈向多模态数据集成的统一工具

曾经我们做数据同步,只需要处理订单表、用户表、销售表。但现在呢?这些都属于多模态场景。结构化、非结构化、流式、向量化数据交织共存,一个统一工具来整合这些数据的需求愈发迫切。SeaTunnel 的重新定位,就是为了解决这个问题:SeaTunnel 本质上是一个 “可编排的异构数据流处理引擎”,架构上由三部分组成:我们来一个个拆开看。从最早的 MySQL 到如今支持超过 100 种数据源,SeaTunnel 对结构化数据的支持已经不再是问题:如果你的场景仍然是 “表到表”,SeaTunnel 不输任何一款传统

2025-11-03 17:05:54 657

原创 【灯塔计划】 浏览器崩溃的第一性原理:内存管理的艺术

垃圾回收的核心任务是识别内存中的 “死区”,即不再使用的内存。有研究数据表明,如果堆中的数据有 1.5GB,V8 实现一次完整的垃圾回收需要 1 秒以上的时间,这也是由于垃圾回收而引起 JavaScript 线程暂停执行的时间,若是这样的时间花销,那么应用的性能和响应能力都会直线下降。使用增量标记算法,可以把一个完整的垃圾回收任务拆分为很多小的任务,这些小的任务执行时间比较短,可以穿插在其他的 JavaScript 任务中间执行,这样当执行上述动画效果时,就不会让用户因为垃圾回收任务而感受到页面的卡顿了。

2025-11-03 17:04:09 753

原创 APP 日志处理框架升级之路

随着业务规模的持续扩张和产品矩阵的不断丰富,数据量呈现指数级增长,这一趋势持续驱动着数据处理架构与模型的演进与迭代,同时也对数据分析的敏捷性、易用性和可靠性提出了更高要求。在数仓系统全面升级的过程中,我们着力优化数据处理全链路,通过改进调度机制、减少计算环节、强化故障自动恢复能力,显著缩短了整个数据处理流程的时长,有效识别并排除多项潜在稳定性风险。此外,依托于对全端埋点体系的系统化梳理与标准化规范,构建了高质量、可复用的数据资产底座。

2025-11-02 17:53:09 682

原创 【技术解决方案】联邦学习中遇到的 Non-IID 问题 —— 隐语 SecretFlow

在联邦学习中,拥有不同数据集的 client 进行联合训练。根据本系列之前的文章《联邦学习之基本方法》可知,由于 client 数据集所对应的样本不同,样本所处地域可能不同,以及数据采集的时间窗口不同等原因。因此多个 client 在进行联合联邦训练时,这些数据集之间往往具有不同的特征分布或标签分布,同时特征之间并非相互独立,联邦学习中的这种场景被称之为非独立同分布(Non-IID (Identically and Independently Distributed))场景 [1]。

2025-11-02 17:52:26 1036

原创 最佳实践:基于 Apache SeaTunnel 从 MySQL 同步到 PostgreSQL

使用 Seatunnel 自带引擎(Zeta)作为 Spark / Flink 作业运行。

2025-11-02 17:51:21 453

原创 AI 推理服务是否真的无利可图?从第一性原理看 AI 推理成本

本文仅探讨原始计算成本。这种处理方式显然过于简化,但考虑到当前模型的实用价值,即便假定技术毫无进步,我仍想重点验证一个观点:是否所有企业在推理环节的亏损都已严重到根本难以为继的程度。我设定单颗 H100 芯片的成本为每小时 2 美元。这实际上已高于当前市场零售的按需租赁价,而我(推测)大型 AI 企业实际采购成本应该远低于这个数额。其次,我将以 DeepSeek R1 的架构为基准,该模型采用混合专家模型架构,总参数量 671B,激活参数量 37B。

2025-11-02 17:50:41 299

原创 DIY ChatGPT 一周狂揽 27k Star「GitHub 热点速览」

这是一款基于 TypeScript、Node.js、PostgreSQL 构建的电商平台,配备功能完善的电商管理后台,支持库存管理、价格策略、多语言和多种支付渠道等功能。开发者仅需 8 张 H100 显卡,即可完成数据处理、预训练、微调、评测到推理的全流程,并内置 ChatGPT 风格 Web UI,支持在线体验,适合自学者快速上手和深入理解大模型原理。只需一条命令,即可自动移除大量系统自带的无用应用和功能,极大减小系统体积、启动更快、内存占用更低,支持所有官方 Windows 11 版本。

2025-11-02 17:49:49 411

原创 前端日志回捞系统的性能优化实践|得物技术

优化一:智能化数据库清理机制问题背景传统日志系统的一个重大痛点是本地存储无限膨胀。用户长期使用后,IndexedDB 可能积累数万条日志记录,不仅占用大量存储空间,更拖慢了所有数据库查询和写入操作。解决方案:双重清理策略我们实现了一个智能清理机制,它结合了两种策略,并只在浏览器空闲时执行,避免影响正常业务。优化二:上传模块的异步加载架构问题背景日志上传功能涉及 OSS 上传、文件压缩等重型依赖,如果全部打包到主库中,会显著增加包体积。更重要的是,大部分用户可能永远不会触发日志上传功能。解决方案:

2025-10-31 20:25:24 650

原创 实测有效|用 SeaTunnel 免费实现 MySQL→Oracle 实时同步,步骤超细

+ 参考说明:++1)作业提交相关参数2)作业管理相关参数。

2025-10-31 20:24:34 1070

原创 GreatSQL 分页查询优化案例实战

Oracle 的分页查询借助 ROWNUM 做三层嵌套查询,GreatSQL 的原生分页查询是使用 LIMIT 子句,GreatSQL 虽然兼容 Oracle 这种分页查询语法,却无法使用索引排序,小表没有问题,但是对百万千万级别的大表,使用文件排序会很耗资源,需要改成 GreatSQL 原生的写法来提升效率。GreatSQL 的 sql_mode 为 Oracle 模式时,无法使用索引排序,需要用 hin 语句级别指定 sql_mode 来解决,注意不能指定成空串。

2025-10-31 20:23:58 441

原创 一文读懂数仓设计的核心规范:从层次、类型到生命周期

🚀业务数据流向设计与分层引用要点稳定业务按照标准的数据流向进行设计,即 ODS –> DWD –> DWS –> APP。非稳定业务或探索性需求,可以遵循 ODS -> DWD -> APP 或者 ODS -> DWD -> DWM ->APP 两个模型数据流。在保障了数据链路的合理性之后,也必须保证模型分层引用原则:举例: 🔍各类数据的精确类型定义需统一规定不同的数据的数据类型,严格按照规定的数据类型执行:🤔高频使用、低延后与低重复率的考量宽表的冗余字段要确保:❓为何如此设置 NULL 字段值🧩指

2025-10-31 20:23:20 636

原创 NJet 支持使用 json 格式的配置文件了

block 格式中有一些例外,就是 xxx_by_lua_block,这些 block 的格式与上面的通用格式不同,其 block 对应的数组中只有一个 obj, obj 的格式为 {“code": “lua_code”}。一个 block 中,有三个键值,其中 cmd 和 args 的含义与上面的指令是相同的,增加的 block 键值对应的是一个数组,数组的每一项又对应着一条指令或一个 block。下面是一个 server 的配置。对应的 json 配置。

2025-10-31 20:22:41 162

原创 告别卡顿与等待,Rancher Vai 让集群操作 “秒响应”

这是在常见用例和索引开销之间的一个权衡。因为 Vai 会将 Kubernetes 对象的副本缓存到 Rancher server pod(对于本地集群)或 cattle-cluster-agent pod(对于下游集群)的磁盘上,我们在设计时就把 "静态加密"(encryption-at-rest)纳入了架构之中。响应速度大幅提升的 UI、Kubernetes API Server 和 Rancher 本身负载显著降低、在资源分页浏览时获得更好的体验 ------ 即便在有数万个资源的环境中也能流畅应对。

2025-10-30 15:41:14 631

原创 多语言向量搜索的好处

为简化操作,我们将使用默认选项,并选择 adaptive resources,它会根据使用情况自动调整部署规模。可选地,如果你想使用其他文本嵌入模型,也是可以的。管道创建成功后,你可以立即使用该管道,通过向导将原始索引数据重新索引到新索引,从而生成嵌入。为了演示,我们将把每个翻译版本作为一个独立的文档进行索引,并附上第一个可用的英文翻译作为参考。并重新索引原始文档,将它们通过管道处理,并创建一个包含嵌入的新索引。来完成,这会引导你完成管道创建过程,并自动填充生成嵌入所需的处理器。

2025-10-30 15:40:09 655

原创 Android 原生错误捕获(Kotlin/Java)

Android 中可通过实现。

2025-10-30 15:38:52 561

原创 对你(工程师)而言,Vai 的意义

那这一系列变革,对你这个使用 Rancher 的技术工程师来说,有什么实打实的好处?图 1:Rancher 2.11.1 上的 kubapiserver 负载,这是 QA 测试的一部分。Steve 的 "list" 负载由 k6 生成,然后 Steve 又加载 Kubernetes API Server,此处由 Rancher Monitoring 进行监控。图 2:Rancher 2.12.1(启用 Vai)上的 kubapiserver 负载,这是 QA 测试的一部分。

2025-10-30 15:37:23 685

原创 React Native 错误处理完全指南 | 葡萄城技术团队

Bright Data 的 CAPTCHA Solver支持高级自定义,可根据特定使用场景微调解题逻辑。事件监控: 检测到 CAPTCHA 并开始解决。: 成功解决 CAPTCHA。: CAPTCHA 解决失败。价格方案方案价格(每 1K 结果)月度费用描述按需付费$1.50无承诺非常适合零散、临时的爬取需求。Growth$1.27$499专为成长型团队打造。Business$1.12$999适用于大规模爬取操作。Premium$1.05$1,999提供高级功能及优先支持。

2025-10-30 15:36:33 564

原创 最佳实践:基于 Apache SeaTunnel 从 MySQL 同步到 PostgreSQL

使用 Seatunnel 自带引擎(Zeta)作为 Spark / Flink 作业运行。

2025-10-29 19:24:47 1147

原创 医疗业务系统升级,这家三甲医院为何牵手 OceanBase?(SQLServer->OceanBase)

行为目标 | 工具 | 作用 | |---|---|---| | 数据库对象评估 | OMA | 精准评估兼容性,对不兼容的部分给出明确的指引。OceanBase 是款高性能、高可用的分布式数据库,结合生态内的数据同步工具 Action OMS,轻松完成从 SQL Server、DB2、MySQL 到 OceanBase 的数据同步,实现了 "数据库 + 同步工具" 的一体化交付。这使得在有限的预算内,既能采用顶尖的技术方案,又能顺利向完成升级,实现了技术先进性与成本可控性的完美平衡。

2025-10-29 19:23:59 873

原创 【隐语 SecretFlow 架构解读】隐私保护模型在线推理系统 SecretFlow-Serving 架构解读

在模型表示上,SecretFlow-Serving 设计了一套隐私保护推理模型图定义,在支持存储模型数据的同时也能够对多方模型推理的调度与计算过程进行描述,以此实现对不同隐私计算技术路线的模型推理算法的支持,同时基于此定义,使用者可以自行构建隐私计算推理模型并使用 SecretFlow-Serving 进行模型推理预测。有些用户需要把隐私计算平台集成到业务上下游全链路中,隐语 SecretPad 就是提供了最佳实践的样板间,可以方便开发集成者做快速集成,可以快速实现一些相对比较简单的场景,如简单的建模。

2025-10-29 19:22:31 646

原创 DIY ChatGPT 一周狂揽 27k Star「GitHub 热点速览」

这是一款基于 TypeScript、Node.js、PostgreSQL 构建的电商平台,配备功能完善的电商管理后台,支持库存管理、价格策略、多语言和多种支付渠道等功能。开发者仅需 8 张 H100 显卡,即可完成数据处理、预训练、微调、评测到推理的全流程,并内置 ChatGPT 风格 Web UI,支持在线体验,适合自学者快速上手和深入理解大模型原理。只需一条命令,即可自动移除大量系统自带的无用应用和功能,极大减小系统体积、启动更快、内存占用更低,支持所有官方 Windows 11 版本。

2025-10-29 19:21:55 910

原创 Microsoft 代理框架简介(预览版):让每个开发人员都能轻松使用 AI 代理

通过 Microsoft.Extensions.AI 标准化模型访问(通过 IChatClient 接口),您可以轻松在不同提供商(如 OpenAI、Azure OpenAI、GitHub Models 等)之间选择,而无需更改代理代码。代理、工具和工作流都是高度可组合的,这种分层架构支持构建灵活、智能且可扩展的系统。Microsoft 代理框架是一套全面的.NET 库,旨在降低代理开发复杂性。例如,写作代理创建内容后,可能需要编辑代理润色或事实核查代理验证细节。Microsoft 代理框架入门非常简单。

2025-10-29 19:18:16 907

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除