ZVAyIVqt0UFji-CSDN博客

原创重塑数据库迁移方式：自主可控的迁移体系构建

切换主机房后，需要将应用服务迁移至B机房，全局域名有优先解析到同机房vip的就近策略，所以预下线A老机房vip的时候一定要确保A机房的服务也迁移到B机房，否则在A机房vip预下线之后，缓存重新生效之前，可能有5~10分钟的地址失效，造成A机房应用无法访问mysql。待切主完成后，代码上更换完VIP或域名（如果使用全局域名可以不用修改），可以将原机房进行预下线，预下线的策略是保留实例，只是将实例从VIP下摘掉，预下线A机房后整体架构如图。：此时A机房一个Master，一个Slave，B机房2个Slave。

2025-07-30 15:29:14 198

原创 AI记忆层开源项目mem0 图记忆源码解析

如果源实体和目标实体都不存在，则创建两个节点，为节点设置用户ID（user_id）、创建时间（created）、提及次数（mentions）等属性，并通过向量索引过程 db.create.setNodeVectorProperty() 设置节点的 embedding 属性，同时创建这两个节点之间的关系，并设置创建时间和提及次数;MemoryGraph 的 add() 方法整个过程结合了大模型的工具调用，向量计算，向量查询，图查询等，经过提取和更新两大阶段，完成了记忆图谱的构建。

2025-07-29 15:06:25 467

原创天纪大模型开发平台TLM模型评测功能介绍

天纪大模型开发平台，简称TLM（TianJi Large Model）整合最新AI技术，提供模型广场、数据广场，模型微调、模型部署和模型评测等大模型开发的完整解决方案，为用户提供全套LLMOPS工程能力，助力业务快速基于通用模型开发生产垂类模型并部署发布。天纪大模型开发平台整合最新 AI 技术，提供模型广场、数据广场，模型微调、模型部署和模型评测等大模型开发的完整解决方案，为用户提供全套 LLMOPS 工程能力，助力业务快速基于通用模型开发出行业模型并部署服务。在模型评测功能中，用户可以直接创建评测任务。

2025-07-23 16:18:02 890

原创奇麟大数据：基于Apache SeaTunnel 构建高效、灵活的数据集成平台

然而，数据的产生和存储往往是分散的，形成复杂的异构数据环境。该框架以SeaTunnel的Source、Transform、Sink插件体系为基础，进一步抽象出统一的插件接口Plugin，所有数据源和目标端的插件均需实现该接口，从而具备生成SeaTunnel配置片段的能力。在理解 SeaTunnel 的架构设计与连接器开发机制之后，本节将介绍我们如何基于SeaTunnel构建一款图形化、插件化、支持异构数据源同步的数据集成系统，并详细解析该系统的核心架构设计、实现方式及其带来的优势。

2025-07-22 17:03:29 1098

原创声纹识别能力融合服务：多引擎协同，解锁精准身份核验

为此，我们打造了一套声纹融合服务，集成腾讯云、科大讯飞以及自研声纹引擎，通过灵活的调度策略，实现多引擎协同，为客户提供更高可用、更精准、更灵活的声纹识别能力。基于自主可控的深度学习框架，支持基础声纹识别能力和横向扩容，可按需扩展算力和节点规模，满足不同业务的规模化部署需求。同一段音频可同时提交至多个声纹引擎进行验证，并行返回结果，降低单一引擎不可用的风险，提升整体成功率。部署于高可用云基础设施，无需本地安装部署，按需弹性扩容，满足不同规模的使用需求。创建声纹库 - > 添加音频特征 -> 特征比对1:1。

2025-07-17 10:55:44 849

原创奇麟大数据：前端大文件上传解决方案

由于前端在发送合并请求时会携带文件名，服务端根据文件名可以找到上一步创建的切片文件夹，接着使用 fs.createWriteStream 创建一个可写流，可写流文件名就是上传时的文件名，随后遍历整个切片文件夹，将切片通过 fs.createReadStream 创建可读流，传输合并到目标文件中。或者也可以额外发一个请求，主动通知服务端进行切片的合并。在生成文件切片时，需要给每个切片一个标识作为 hash，这里暂时使用文件名 + 下标的标记方式，这样后端可以知道当前切片是第几个切片，用于之后的合并切片。

2025-07-16 17:10:14 1006

转载使用 Foundation Models，将苹果本地AI大模型引入你的APP

在提示模型时，框架会将响应格式注入到提示中，由于模型在使 ‘引导式生成’ 规范设计的特殊数据集上进行后期训练，因此能够理解并遵循该格式。帮助开发者优化输入指令、排查性能瓶颈。通过 Swift API，该框架允许开发者访问由 Apple Intelligence 提供支持的设备端大语言模型，扩展模型的能力边界，使用模型的输出结果增强APP中的现有功能。在用户发出请求之前，例如，当用户打开集成大语言模型的页面时或用户点击输入框准备输入任务时，APP 可以提前加载设备上的语言模型，从而减少初始延迟。

2025-07-15 16:10:19 165

原创 Go 性能分析利器：pprof 工具实战指南

作为 Go 语言性能分析的利器，其核心价值在于帮助我们从纷繁复杂的代码中，精准定位性能瓶颈。生成的火焰图中，横向宽度代表函数的耗时比例，纵向代表调用栈深度，颜色越红表示耗时越高。作为 Go 官方提供的性能分析工具，就像一把精准的手术刀，能帮助我们快速定位这些隐藏的性能瓶颈。源于 Google 的性能分析框架，它的工作原理并不复杂：通过在程序运行时进行 “采样”，收集关键性能指标的数据，生成。：一个程序运行起来后，CPU 使用率居高不下，响应速度很慢，怀疑存在 CPU 密集型的性能瓶颈。

2025-07-09 14:55:43 664

原创 150亿图床数据迁移：从单机到多集群的进化之路

在互联网内容爆炸式增长的时代，图片作为信息的主要载体之一，其存储和管理面临着前所未有的挑战。从最初的单机单进程迁移，到最终的多集群并行处理，我们通过不断优化和迭代，将原本预计需要120天的迁移工作缩短到了40天完成。这次150亿图床数据的迁移实践，不仅解决了当下的业务需求，更为我们积累了处理超大规模数据迁移的宝贵经验。技术的演进永无止境，我们将继续探索更高效、更可靠的数据迁移方案。实测表明，单进程迁移速度仅为每秒10-20个文件，按此速度完成300亿数据迁移需要约5年时间！

2025-07-01 17:41:44 459

原创分布式文件系统性能评估

NVMe SSD通过PCIe总线直连CPU，访问延迟在微秒级别，随机读延迟可低至20–30 µs，写延迟约30–50 µs，分布式文件系统读写数据需要经过网络、远端nvme读写数据的过程，即使是最快的RDMA/RoCEv2/InfiniBand，网络往返延迟在数十微秒一以上，其单次访问时延包括远端nvme读写、网络传输、协议栈、网卡读取、软件处理等开销，整体时延估算约100us，此外分布式文件系统需要处理数据分片、副本放置、多副本写入、一致性协议等。我们必须分清我们的用户是谁，场景是什么。

2025-06-30 15:57:14 1010

原创云舟观测：基于LLM的智能运维分析助手探索

在推理的过程中，LLM推理过程可能会消耗大量时间，这块主要体现在回调各种数据api的时候，返回数据量异常大，比如主机健康评估，需要获取告警日志、指标数据、进程列表以及磁盘信息等核心数据，然后根据指令进行推导。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品，可以对基础设施、应用性能，以及云原生下业务指标和日志进行全面的监控和观测，构建全链路的可观测性服务，帮助用户及时发现和解决系统及应用性能问题，提高系统的稳定性和可靠性。后续针对频繁查询的主机的场景，可以进行缓存，实时数据进行汰换。

2025-06-27 15:21:40 542

原创 Go并发编程之WaitGroup

sync.WaitGroup 是 Go 并发编程中的基础工具，是Go 开发者处理并发同步的首选工具，适用于需要等待多个并发操作全部完成的场景。该图展示了 WaitGroup 的三个主要方法如何协同工作，WaitGroup 如何在并发环境中协调任务的启动、完成和等待过程。在调用 Wait() 之前，确保所有的 Done() 调用都已完成，以避免由于内存同步问题导致的竞态条件。避坑指南：WaitGroup的计数器的值必须大于等于0。Done()：减少计数器值，等价于Add(-1)，通常用defer确保执行。

2025-06-26 14:15:21 327

原创云舟观测：基于Monaco Editor的万行级日志在线浏览方案

云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品，可以对基础设施、应用性能，以及云原生下业务指标和日志进行全面的监控和观测，构建全链路的可观测性服务，帮助用户及时发现和解决系统及应用性能问题，提高系统的稳定性和可靠性。导读：在 Vue 项目中实现高性能日志浏览，需满足：语法高亮、关键词搜索、动态标记、日志倒序（新日志在下）、定时刷新、行数可控、时间范围查询、分页加载、复制下载等功能。：对于需要展示和分析大型文本数据的场景，Monaco Editor 提供了高性能、可扩展的基础解决方案。

2025-06-24 11:09:31 640

原创 360AI平台分布式推理建设

全局控制存储，用于协调集群状态和元数据。A100 GPU 以其卓越的算力、显存带宽和 FP16/BF16 性能，非常适合处理大型语言模型 (LLM) 的训练、微调或高性能推理任务，特别是那些对延迟和吞吐量要求极高的场景。KubeRay Operator 提供了原生的 Kubernetes 方式来管理 Ray 集群，包括 RayJob、RayCluster、RayService 等自定义资源定义（CRD），支持自动扩缩、异构计算节点以及在同一Kubernetes 集群中运行多个不同版本的Ray集群。

2025-06-23 16:33:00 958

原创沉浸式AI交互数字人技术解析

360智汇云 AI 数字人系统，融合语音识别、大模型问答、语音合成与唇形动画等多项核心技术，构建了稳定、低延迟、高还原度的实时交互体验。系统集成了360智汇云自研的沉浸式AI交互数字人引擎与高性能 RTC 模块，保障音视频传输过程中的低延迟、高稳定性和高并发承载能力，实现自然流畅的沉浸式交互体验。然而，该策略会显著降低唇形同步精度，影响生成质量。360智汇云沉浸式交互 AI 数字人产品将持续致力于降低技术门槛，帮助企业快速构建和部署自己的智能交互应用，释放 AI 交互的潜力，共同开创人机协作的美好未来。

2025-06-19 10:14:26 855

原创 K8s集群多租户管理

例如，在一个物理集群中有多个虚拟集群，每个虚拟集群可以根据自身需求申请和使用物理集群中的资源，就像拥有自己独立的资源池一样。它允许用户在一个已有的 Kubernetes 集群内部创建多个虚拟的、独立的集群环境，这些虚拟集群就像是物理集群一样，拥有自己独立的 API 服务器、资源管理等功能。而多集群管理方案则适合需要跨集群调度和管理的场景。在多租户的云服务或者企业内部的共享 Kubernetes 集群场景中，不同的租户（如不同的部门或者不同的客户）需要使用集群资源，但又要保证租户之间的资源划分和安全隔离。

2025-06-18 10:46:17 1088

原创 Pulsar Serverless：实现 6 倍成本节约，无损弹性伸缩

2) 相较 Kafka，重新消费大量历史数据对 Pulsar 写性能影响更小，Pulsar 中支持为写数据（Journal）和读数据（Ledger）分配不同的磁盘设备，实现读写I/O隔离，并且配合Bookie数据分片均匀分布的特点，能充分释放和均衡硬件性能。开启跨地域复制后，Pulsar 内部会开启后台线程，将 topic 的数据异步写入备份集群，数据是双向同步的，如下图所示，生产者P1在A集群生产的数据，消费者C2在B集群也可以消费到。1) 对于流量较小的业务，使用共享资源组可以实现成本最优。

2025-06-17 10:35:53 833

原创 vpc-cni的设计概述及ipam逻辑实现

ultronNetwork分配网卡及ip，由agent在node节点创建相应的vlan-interface，最终实现整个容器网络的cni插件，同时对容器网络ip进行池化操作和管理，便于底层网络资源优化使用及问题排查等。ultronNetwork分配网卡及ip，由agent在node节点创建相应的vlan-interface，最终实现整个容器网络的cni插件，同时对容器网络ip进行池化操作和管理，便于底层网络资源优化使用及问题排查等。综上所述，vpc-cni是根据公司实际需求和技术栈，选择的合适方案。

2025-06-16 15:34:23 827

原创 K8S Service 适配多VPC

以 K8S 集群中的 KubeDNS/CoreDNS 服务为例，它通过 Service IP 为集群中 Pod 提供 DNS 服务，这就一定所有 Pod 都能访问到，才能维持集群/业务功能正常。例如，用户类型 Service，要求实现 VPC 维度的隔离，仅能允许放行同一 VPC 中 Client 发起的请求访问。在 K8S 中的 Service，可按照用户类型和系统类型对 Service 进行区分，不同类型的 Service 对隔离性的要求是不同的。以此对隔离性要求进行区分实现。

2025-06-13 14:56:46 967

原创 Kubernetes 控制器开发、镜像构建及部署实践

Kubernetes 控制器（Controller）是其自动化运维的重要组成部分，负责监听集群中的资源变化，并执行相应的操作。掌握 Kubernetes 控制器的开发，不仅能提升系统的可扩展性，还能帮助工程师深入理解 Kubernetes 生态。本文将从零开始，带你完整体验 Kubernetes 控制器的开发、镜像构建和部署过程，帮助你快速上手并应用到实际生产环境。掌握 Kubernetes 控制器开发，可以帮助你自动化集群管理，提高运维效率，并深入理解 Kubernetes 的工作原理。

2025-06-10 11:41:52 610

原创聚合工作台：多平台管理「一站式」方案

在子应用中使用 <router - link> 或 router.push/router.replace 直接跳转，会基于子应用的 base，导致无法正确跳转到主应用或其他子应用路由。：在不同的模式下（重建模式、单例模式、保活模式等），浏览器的回退和前进按钮在处理主应用和子应用路由切换时会出现异常，如回到子应用时只能进入首页，无法进入子路由，或者刷新后点击后退按钮无反应等。：子应用暴露特定模块（如 React 组件、JS 方法），主应用直接引入使用，无需加载整个子应用 HTML。

2025-06-09 16:20:38 1009

原创对象存储Ozone EC应用和优化

一是性能问题，以6-3-512K为例，每个文件块由原来的 3 副本变成了包含9个Block的Block Group，而且这9个Block必须分布在不同的机器，每次读操作至少需要6个Block 才能还原数据，也就是至少需要6个DN同时返回，数据才能被正常解析；因此，当写文件时，先根据文件大小，算出不同EC配比下最终占用空间大小，选择空间占用最少的EC配比，可以最大限度的节省存储空间。由于EC存储的成本较低，因此根据文件访问情况进行分类，不同的类型采用不同的存储方式，可以有效地降低用户成本，提高资源使用率。

2025-06-06 14:04:44 873

原创智汇云 API 市场：赋能大模型创新

开发者无需自行训练和部署复杂的模型，即可通过 API 调用，将尖端的 AI 技术集成到自己的应用或业务流程中。• 填写应用相关的信息，勾选“语言大模型”，如果希望使用多个服务，可以均勾选上（针对后面 Dify 依赖的模型，我这里示例勾选：语言大模型、语音识别大模型、语音合成大模型、向量模型、重排序模型），最后点击。本文将重点介绍智汇云 API 市场在大模型 API 方面的核心能力，并以流行的 LLM 应用开发平台 Dify 为例，展示如何利用本市场提供的API 服务快速构建和部署智能应用。

2025-06-04 15:21:42 629

原创 OpenAI-o4mini-RFT 技术调研及实践

一般来说，强化学习训练llm时，都是用奖励模型或者奖励函数对模型生成的整体回答给一个奖励，然后把这个奖励复制或者平分给每个token，然后用它来计算优势值，然后根据ppo的目标函数来计算梯度，计算完一个批次的数据的梯度以后就可以用来更新网络，直到它拟合。对于policy gradient的方法来说，我们希望通过梯度上升的方式最大化轨迹得到的奖励，也就是最大化我们的目标函数，即奖励的期望。，也就是Rθ，那么需要对网络参数θ求梯度，初始策略生成N个路径，用于计算Rθ的梯度，最后利用梯度上升更新网络参数。

2025-05-28 15:25:52 823

原创极速转码的设计与实现

接下来我们使用归并的思想，把完整转码任务分解成多个转码子任务，获取到完整转码任务的转码单元变成了一个维护子任务任务状态，下发子任务，以及维护索引m3u8的master，执行子转码任务的单元为slave。AVPacket中存放编码数据（h264,h265,vp8等），AVframe存放解码时候的数据（yuv），ffmpeg中是以AVPacket为单位进行解码任务的提交的，按照前一小节的描述，ffmpeg就是以frame为单位进行解码任务的提交的。所有子任务并行转码，理论极速转码耗时=原转码耗时/子任务数。

2025-05-27 15:56:52 761

原创通过域名访问k8s-pod方案

2、在k8s侧需要一个agent用于watch对集群外暴露域名的pod，将podname，namespace等进行拼接组成域名（根据自身需要进行拼接），并将域名与ip传给server服务，记录到etcd中。2、下载coredns二进制： https://github.com/coredns/coredns/releases/tag/v1.10.1。3、考虑到集群pod增删频率过快，导致的dns-node压力过大，可以针对有需要暴露pod域名需求的业务使用，通过pod anntation识别。

2025-05-26 14:51:20 439

原创 Voice Agent 介绍与实现方案

虽然目前能够直接接受视频输入的 LLM 还没有被广泛的应用，稳定性和可用性也有待提供，但是接受图像作为输入的 LLM 很多已经表现出非常出色的分析能力，不仅能够描述图像内容以及转录图像中出现的文本，有些还能统计画面的对象、识别边界框以及更好地理解图像中对象之间的关系。然而，抛开模型服务引入的延迟，在 Voice Agent 场景下，客户端和 Agent 服务程序还需进行媒体数据（音频，甚至视频）的交换，延迟可能还会增加，甚至超过一秒半，用户几乎肯定会察觉到。这是多模态系统在实际应用中难以回避的技术瓶颈。

2025-05-22 10:19:35 954

原创 K8s 集群运行时：从 Docker 升级到 Containerd

修改完成后，集群会升级master节点，等待master节点升级完成，原有的master上的ds的 pods 默认会重新创建；在重建过程中，对于一些其他pod，可能需要人工干预去重建，然后在清理docker运行时下的残留进程。容器运行时的升级不仅是技术组件的简单替换，更是云原生架构持续进化的必经之路。说明：我们公司使用rancher来管理和搭建集群，rancher本身是不支持指定节点来滚动升级的，我们二开了rancher，增加了指定节点来升级节点kubelet、kube-proxy等组件。

2025-05-20 16:34:34 581

原创智汇云Milvus 2.5：向量数据库的全新进化与RAG应用实践

智汇云已经提供Milvus 2.4，紧跟官方版本新特性，现在提供 2.5.11 版本，支持全文检索、标量过滤与混合检索等新特性。Faiss 中的 HNSW 算法在功能和性能方面都有了显著的改进，出于稳定性和可维护性的考虑 Milvus 2.5 正式将对 HNSW 的支持从 hnswlib 迁移到 Faiss；与其他类型的索引相比，其在处理低基数字段时，通常具有更高的空间效率和更快的查询速度；V2 引入了新的本地文件格式，提高了标量数据的加载和查询效率，减少了内存开销，并为未来的优化奠定了基础；

2025-05-19 14:17:55 834

原创 360基于Volcano的云原生调度实践

项目的资源配额从多少个节点，修改为xx型号的卡n张，yy型号的卡m张，对用户屏蔽节点这一概念，用户只能看到卡。基于层级队列的能力，360AI平台进一步优化了资源管理策略，将队列划分三层，分别是ROOT队列，表示集群所有资源，资源组级别队列，是一组项目的集合，项目级别队列，每个队列对应一个具体的项目。在最新的Volcano 1.11版本中，Volcano官方实现了网络拓扑感知调度，可根据节点拓扑信息，自动将通信密集的Pod调度到同一个交换机下的节点，显著减少了AllReduce等集合操作的通信开销。

2025-05-15 11:51:31 783

原创云舟观测：基于Spring AI的智能SQL助手设计与落地实践

该方案深度融合AI技术，通过构建AI驱动的智能诊断引擎，可自动完成查询语句的语法解析、索引优化建议生成及执行计划可视化，能够满足不同用户的需求，无论是开发人员、运维人员还是业务人员，都可以通过该助手进行SQL相关的操作和管理。在这个提示词模板中，明确了生成SQL的步骤和要求。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品，可以对基础设施、应用性能，以及云原生下业务指标和日志进行全面的监控和观测，构建全链路的可观测性服务，帮助用户及时发现和解决系统及应用性能问题，提高系统的稳定性和可靠性。

2025-05-14 11:35:28 1183

原创 vGPU 在容器云的落地

在过往的云原生时代，k8s或者docker使用gpu都是已独占的形式使用GPU，这对于一些在线推理的服务来说，会造成大量的GPU资源浪费，通过VGPU以及AI平台的协助去合理的配置用户使用GPU资源，可以给用户提供稳定，可靠的高性能的GPU加速环境，并且hami的工作原理是通过拦截CUDA去实现显存和算力的切割，对过往使用独占型GPU方式的应用无侵入性，满足不同应用的工作场景。AI落地时，在某些场景下AI模型在训练或者是推理时，其算力要求不需要占用整卡的GPU，比如只需要0.5卡GPU即可满足需求。

2025-05-13 16:47:24 772

原创 HDFS 多 AZ 容灾技术揭秘之 AZ Mover

为此，我们在 dispatcher 中新增了“指定 delHint”的能力，使得在执行“就近选源”逻辑时，能够直接提示删除不合规的副本，从而在迁移过程中大幅节省带宽。》中，我们介绍了 HDFS 如何通过拓扑感知机制，使新写入的数据副本自动分布在多个可用区（AZ），从而提升了集群的抗灾能力。在源节点与目标节点的选择流程中，AzMover 先从目标 AZ 内筛选符合机架约束且负载正常的目标节点，再在三个副本源（假设副本数为 3）中挑选与该目标节点拓扑距离最近且负载最低的节点作为源节点。

2025-05-09 11:28:25 1039

原创 Golang业务逻辑WASM化实践指南

而Golang自1.21版本对WASI（WebAssembly System Interface）的完善支持，使得Go代码能直接编译为可在边缘节点运行的.wasm模块。360智汇云官网：https://zyun.360.cn（复制在浏览器中打开）你可以使用简单的 HTTP 服务器来运行项目，通过http访问来查看效果。下面是一个简单的 Go 示例，它包含一个计算两数之和的函数。在物联网和5G加速普及的当下，边缘计算对。：完善wasm-gdb对Go语义的支持。：探索WASM在GPU边缘推理的应用。

2025-05-08 14:34:50 496

原创 MySQL 内存使用构成解析与优化实践

本篇文章将带你深入了解 MySQL 的内存构成，常见的内存使用高的场景，以及我们在平台侧做出的优化努力。我们通过引入 jemalloc 作为内存分配器，在实际线上环境中观察到，内存不再持续上涨，而是能够随着业务压力变化实现有效的内存收敛，同时系统的整体稳定性也得到了明显提升。重要提示：MySQL 的许多内存（如 Buffer Pool）是预分配并常驻内存的，也就是说，即使数据读写暂时减少，已分配的内存不会释放回操作系统。很明显看出修改内存分配器后，内存不再持续上涨，而是根据业务压力变化出现内存收敛情况。

2025-04-27 11:51:48 694

原创 360 OpenStack支持IP SAN存储实现

cinder volume创建volume时通过task flow执行了核心任务 CreateVolumeFromSpecTask，这里用户创建了一个系统盘，指定了image，所以执行了_create_from_image ，最终调用了_create_from_image_cache_or_download 方法。FC-SAN（Fibre Channel Storage Area Network）是一种基于光纤通道技术的存储网络，它将存储设备和服务器连接在一起，形成一个高速、高性能的存储区域网络。

2025-04-24 16:04:13 1071

原创云上流量镜像优化方案

虚拟化snat网关和ops的nat网关有一个比较重要的区别，虚拟化snat网关面对的是vpc网络，它需要处理的规则量是可预估的，规模也是有限的，但ops的nat网关面对的是整个公司所有的流量，它需要配置的放行规则是不可预估的，规模也是不可预期的。归纳以上我们倾向于使用前缀匹配这个方案，它的优点就是可以支持规则中源网段和目的网段的掩码长度不受限制，灵活性很强，并且前缀匹配查找理论上具有最少的内存访问次数，属于高性能的查找算法，再加上dpdk性能优化的加持，理论上应该可以得到最高的查找性能。

2025-04-22 10:56:26 1065

原创云防火墙之互联网边界防火墙在360的设计与实现

b. VPC内虚机访问公网时，计算节点上流量至FIP网关，通过FIP上的映射关系查询是否开启fw_switch，如果开启则将流量引流至云防火墙，若未开启，则流量直接通过FIP网关转发出去。流量到达云防火墙后，对out方向流量进行规则匹配，匹配完成后进行转发或者阻断。a. 云外客户端访问VPC内虚机时，通过BGP路由将流量吸到云防火墙上，匹配防火墙规则完成后，对报文进行VXLAN封包，外层源IP为防火墙VTEP IP，外层目的端口为FIP网关VTEP IP，由FIP中映射关系将流量报文引入VPC内虚机上。

2025-04-16 11:22:45 286

原创 Mooncake: P2P Store 应用与原理

数据获取者可以从etcd中list所有注册的数据 key（从原理上来说，也可以进行监听），如果数据获取者发现感兴趣的数据key被注册到系统中，则可以通过 P2P Store 提供的 replica 接口将 key 对应的远端数据读取到本地内存。总体来说，P2P Store 系统中的节点可以读写系统中注册的任意 key 所对应的内存数据，就像操作本地内存数据一样，其底层由 transfer engine 支持。如此一来，不难发现，随着推理节点数量规模的逐步扩大，数据的读放大问题愈发凸显。

2025-04-11 11:14:52 1049

原创超融合网关方案在360的落地

网关基于DPDK，从而实现的是用户态路由，修改该默认路由的源IP为VIP。随着专有网络（Virtual Private Cloud，简称VPC）在公司的全面铺开，相关的网关产品种类越来越丰富，已经逐渐构建了一套较完善的网络产品，包括NAT网关、EIP网关、负载均衡网关、云联网网关等，满足用户访问公网，打通VPC、经典网络，跨地域等多种网络访问场景。超融合网关将当前所有类型网关进行了整合，但并不是简单的网关功能合并，更多的是要保证符合多种场景的数据包，如何得到正确的处理，因此涉及到了很多复杂的条件判断。

2025-04-10 11:09:14 1024

空空如也

空空如也