- 博客(398)
- 收藏
- 关注
原创 智汇云Milvus 2.5:向量数据库的全新进化与RAG应用实践
智汇云已经提供Milvus 2.4,紧跟官方版本新特性,现在提供 2.5.11 版本,支持全文检索、标量过滤与混合检索等新特性。Faiss 中的 HNSW 算法在功能和性能方面都有了显著的改进,出于稳定性和可维护性的考虑 Milvus 2.5 正式将对 HNSW 的支持从 hnswlib 迁移到 Faiss;与其他类型的索引相比,其在处理低基数字段时,通常具有更高的空间效率和更快的查询速度;V2 引入了新的本地文件格式,提高了标量数据的加载和查询效率,减少了内存开销,并为未来的优化奠定了基础;
2025-05-19 14:17:55
385
原创 360基于Volcano的云原生调度实践
项目的资源配额从多少个节点,修改为xx型号的卡n张,yy型号的卡m张,对用户屏蔽节点这一概念,用户只能看到卡。基于层级队列的能力,360AI平台进一步优化了资源管理策略,将队列划分三层,分别是ROOT队列,表示集群所有资源,资源组级别队列,是一组项目的集合,项目级别队列,每个队列对应一个具体的项目。在最新的Volcano 1.11版本中,Volcano官方实现了网络拓扑感知调度,可根据节点拓扑信息,自动将通信密集的Pod调度到同一个交换机下的节点,显著减少了AllReduce等集合操作的通信开销。
2025-05-15 11:51:31
708
原创 云舟观测:基于Spring AI的智能SQL助手设计与落地实践
该方案深度融合AI技术,通过构建AI驱动的智能诊断引擎,可自动完成查询语句的语法解析、索引优化建议生成及执行计划可视化,能够满足不同用户的需求,无论是开发人员、运维人员还是业务人员,都可以通过该助手进行SQL相关的操作和管理。在这个提示词模板中,明确了生成SQL的步骤和要求。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。
2025-05-14 11:35:28
1106
原创 vGPU 在容器云的落地
在过往的云原生时代,k8s或者docker使用gpu都是已独占的形式使用GPU,这对于一些在线推理的服务来说,会造成大量的GPU资源浪费,通过VGPU以及AI平台的协助去合理的配置用户使用GPU资源,可以给用户提供稳定,可靠的高性能的GPU加速环境,并且hami的工作原理是通过拦截CUDA去实现显存和算力的切割,对过往使用独占型GPU方式的应用无侵入性,满足不同应用的工作场景。AI落地时,在某些场景下AI模型在训练或者是推理时,其算力要求不需要占用整卡的GPU,比如只需要0.5卡GPU即可满足需求。
2025-05-13 16:47:24
711
原创 HDFS 多 AZ 容灾技术揭秘之 AZ Mover
为此,我们在 dispatcher 中新增了“指定 delHint”的能力,使得在执行“就近选源”逻辑时,能够直接提示删除不合规的副本,从而在迁移过程中大幅节省带宽。》中,我们介绍了 HDFS 如何通过拓扑感知机制,使新写入的数据副本自动分布在多个可用区(AZ),从而提升了集群的抗灾能力。在源节点与目标节点的选择流程中,AzMover 先从目标 AZ 内筛选符合机架约束且负载正常的目标节点,再在三个副本源(假设副本数为 3)中挑选与该目标节点拓扑距离最近且负载最低的节点作为源节点。
2025-05-09 11:28:25
1014
原创 Golang业务逻辑WASM化实践指南
而Golang自1.21版本对WASI(WebAssembly System Interface)的完善支持,使得Go代码能直接编译为可在边缘节点运行的.wasm模块。360智汇云官网:https://zyun.360.cn(复制在浏览器中打开)你可以使用简单的 HTTP 服务器来运行项目,通过http访问来查看效果。下面是一个简单的 Go 示例,它包含一个计算两数之和的函数。在物联网和5G加速普及的当下,边缘计算对。:完善wasm-gdb对Go语义的支持。:探索WASM在GPU边缘推理的应用。
2025-05-08 14:34:50
426
原创 MySQL 内存使用构成解析与优化实践
本篇文章将带你深入了解 MySQL 的内存构成,常见的内存使用高的场景,以及我们在平台侧做出的优化努力。我们通过引入 jemalloc 作为内存分配器,在实际线上环境中观察到,内存不再持续上涨,而是能够随着业务压力变化实现有效的内存收敛,同时系统的整体稳定性也得到了明显提升。重要提示:MySQL 的许多内存(如 Buffer Pool)是预分配并常驻内存的,也就是说,即使数据读写暂时减少,已分配的内存不会释放回操作系统。很明显看出修改内存分配器后,内存不再持续上涨,而是根据业务压力变化出现内存收敛情况。
2025-04-27 11:51:48
670
原创 360 OpenStack支持IP SAN存储实现
cinder volume创建volume时通过task flow执行了核心任务 CreateVolumeFromSpecTask,这里用户创建了一个系统盘,指定了image,所以执行了_create_from_image ,最终调用了_create_from_image_cache_or_download 方法。FC-SAN(Fibre Channel Storage Area Network)是一种基于光纤通道技术的存储网络,它将存储设备和服务器连接在一起,形成一个高速、高性能的存储区域网络。
2025-04-24 16:04:13
1013
原创 云上流量镜像优化方案
虚拟化snat网关和ops的nat网关有一个比较重要的区别,虚拟化snat网关面对的是vpc网络,它需要处理的规则量是可预估的,规模也是有限的,但ops的nat网关面对的是整个公司所有的流量,它需要配置的放行规则是不可预估的,规模也是不可预期的。归纳以上我们倾向于使用前缀匹配这个方案,它的优点就是可以支持规则中源网段和目的网段的掩码长度不受限制,灵活性很强,并且前缀匹配查找理论上具有最少的内存访问次数,属于高性能的查找算法,再加上dpdk性能优化的加持,理论上应该可以得到最高的查找性能。
2025-04-22 10:56:26
1033
原创 云防火墙之互联网边界防火墙在360的设计与实现
b. VPC内虚机访问公网时,计算节点上流量至FIP网关,通过FIP上的映射关系查询是否开启fw_switch,如果开启则将流量引流至云防火墙,若未开启,则流量直接通过FIP网关转发出去。流量到达云防火墙后,对out方向流量进行规则匹配,匹配完成后进行转发或者阻断。a. 云外客户端访问VPC内虚机时,通过BGP路由将流量吸到云防火墙上,匹配防火墙规则完成后,对报文进行VXLAN封包,外层源IP为防火墙VTEP IP,外层目的端口为FIP网关VTEP IP,由FIP中映射关系将流量报文引入VPC内虚机上。
2025-04-16 11:22:45
262
原创 Mooncake: P2P Store 应用与原理
数据获取者可以从etcd中list所有注册的数据 key(从原理上来说,也可以进行监听),如果数据获取者发现感兴趣的数据key被注册到系统中,则可以通过 P2P Store 提供的 replica 接口将 key 对应的远端数据读取到本地内存。总体来说,P2P Store 系统中的节点可以读写系统中注册的任意 key 所对应的内存数据,就像操作本地内存数据一样,其底层由 transfer engine 支持。如此一来,不难发现,随着推理节点数量规模的逐步扩大,数据的读放大问题愈发凸显。
2025-04-11 11:14:52
955
原创 超融合网关方案在360的落地
网关基于DPDK,从而实现的是用户态路由,修改该默认路由的源IP为VIP。随着专有网络(Virtual Private Cloud,简称VPC)在公司的全面铺开,相关的网关产品种类越来越丰富,已经逐渐构建了一套较完善的网络产品,包括NAT网关、EIP网关、负载均衡网关、云联网网关等,满足用户访问公网,打通VPC、经典网络,跨地域等多种网络访问场景。超融合网关将当前所有类型网关进行了整合,但并不是简单的网关功能合并,更多的是要保证符合多种场景的数据包,如何得到正确的处理,因此涉及到了很多复杂的条件判断。
2025-04-10 11:09:14
998
原创 时序数据库VictoriaMetrics 原理
这里引入了LSM的概念,数据会通过TSID 做hash,打散到若干的shard里面,之所以是多个shard是因为需要减少,shard 转入pending rows的时间,pinging rows 中会每5s将rows flush 到 in-memory parts中,parts中是由若干block组成的。这里Metric raw name,做hash决定发往哪个vmstorage节点,将此时间序列填充到对应的vmstorage的待发buffer中,攒批并压缩发送给vmstorage。
2025-04-02 10:24:51
985
原创 DeepSeek开源库DeepGEMM 性能测评
大规模矩阵 (m, n, k ≥ 4096): DeepGEMM 逐渐追平甚至略超 Cutlass,特别是在 (4096, 7168, 16384) 这种大矩阵情况下,Cutlass 仅为 DeepGEMM 的 0.73x-0.98x,说明 DeepGEMM 在超大规模 GEMM 计算上更优。尽管设计轻量,但在各种矩阵形状下性能可匹配或超越专家调优的库。在 大规模计算(m ≥ 1024) 时,Cutlass 基本与 DeepGEMM 持平(1.01x ~ 1.07x),但部分情况下略有下降(0.89x)。
2025-04-01 16:08:44
600
原创 虚拟机CPU绑核NUMA不均衡分配实现
NUMA(Non-Uniform Memory Access,非一致性内存访问)是一种在多处理系统中的内存设计架构,在多处理器中,CPU访问系统上各个物理内存的速度可能不一样,一个CPU访问其本地内存的速度比访问(同一系统上)其他CPU对应的本地内存快一些。可会存在一个问题:某个计算节点上面已经落了11台虚拟机,还有8个vcpu空闲,numa0剩余2个vcpu,numa1剩余6个vcpu,此时既不能落8核的单numa套餐,也不能落8核的双numa套餐,只能落小套餐,造成一定的资源浪费。
2025-03-28 14:10:54
916
原创 DeepSeek开源通信库DeepEP介绍
广大网友在惊艳其效果的同时也在好奇如此规模庞大的模型是如何高效的进行推理的,DeepSeek内部又是建立了一套什么样的推理系统以支撑其庞大的用户需求量的。DeepEP是专门针对MoE模型大规模专家并行场景进行优化的高效通信库,其依赖NVIDIA软件生态的NVSHMEM GPU通信库、GDRCopy低延时GPU显存拷贝库及IBGDA等核心技术,实现了经典的以NCCL为主的高效集合通信库的功能。可以看出,在小消息传输的场景下,和传统的cudaMemcpy相比,利用GDRCopy后的延时有了很大程度的降低。
2025-03-24 15:07:26
867
原创 云舟观测:应用性能监控助力业务零中断
以图形化的方式展示请求的完整调用路径,不仅呈现整个请求的总耗时,还细分为每个服务调用的耗时,以及网络延迟、数据库查询、缓存操作等关键环节的执行时间,辅助定位性能瓶颈。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。应用性能优化:追踪服务端的全链路请求,识别接口调用慢、交易失败等问题,提升应用性能。
2025-03-20 15:17:02
628
原创 GPU虚拟化方案与落地
1. 背景本文总结一下当前 360 云平台虚拟机GPU 直通方案落地和容器+MIG 方案验证1. 背景AI 大模型作为 360 公司的重点战略目标,GPU 卡同时也作为战略资源,如果用物理机直接给用户使用,一个物理机默认带 8 张卡,有时用户用不到这么多,会造成 GPU 卡的浪费。所以,给用户提供的 GPU 卡需要精细划分,要求按卡分配,并且要有隔离机制。kvm 虚拟机和容器本身带有资源小单位划分和隔离的特性,于是团队采用了虚拟机和容器作为GPU资源提供方式来满足用户需求。2. 方案调研。
2025-03-19 18:15:24
871
原创 容器化部署内核版OVS热升级方案
内核版OVS热升级时,会先通过ovs-save dump 所有网桥上的Openflow存入临时文件,然后停止Vswitchd进程并设置flow-restore-wait为"true",此时再次启动Vswitchd进程时获取该特性设置了"true"不会从内核模块接收处理UPCALL,也不会让内核模块快路径的Flow超时,并且也不会连接Controller防止Openflow Restore前Controller下发Openflow。在容器外实现ovs-ctl restart的逻辑,具体请参考。
2025-03-17 11:35:42
883
原创 视频预加载技术提升用户体验
引言随着在线视频平台的普及,在线视频成为了用户日常生活中不可或缺的一部分,如何提升用户观看体验,尤其是在视频加载时间和播放流畅性方面,成为了开发者关注的焦点。视频预加载技术,作为提升视频加载效率和用户体验的重要手段,逐渐成为现代网页视频播放的一项至关重要的优化技术。1. 什么是视频预加载技术视频预加载技术是指在用户实际播放视频之前,提前加载部分或全部视频内容到本地缓存中的技术。通过预加载,可以减少...
2025-03-13 14:19:18
985
原创 DeepSeek 3FS文件系统亮点总结和知识点扩充
一、3FS特性总览DeepSeek开源周第五天,推出了支撑DeepSeek全线数据访问神器,3FS文件系统。Fire-Flyer File System(3FS)-一款在基于SSDS和RDMA网络可以将带宽全部利用的并行文件系统,在V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗马功劳。项目一经发布,就获得了存储领域的广泛关注。大家纷纷从自己的侧...
2025-03-12 11:21:57
1134
原创 虚拟机流量镜像介绍
1. 背景流量镜像提供流量采集服务,可将指定采集范围的流量按不同过滤条件过滤,并复制转发至私有网络 VPC 下的 VM 上,适用于安全审计、风险监测、故障排查、业务分析等场景。1.1 工作流程流量镜像关键组成为采集源和接收端,具体工作流程如下图所示。采集源:VPC 中指定弹性网卡,可按所属网络、采集范围、采集类型和流量过滤等规则条件进行过滤。接收端:采集流量将被复制转发至接收 IP 中。1.2 使...
2025-03-10 16:30:42
936
原创 Redis Module:赋能智能化实时应用
1. Redis Module简述在人工智能(AI)技术快速落地的今天,开发者面临着模型部署效率、实时推理性能与数据基础设施融合的多重挑战。Redis作为高性能内存数据库,通过RedisML、RedisSearch、Neural-Redis模块等及其AI生态工具,为实时智能场景提供了独特的技术解决方案。本文深度解析Redis中AI模块的技术特性与应用实践。模块的核心价值扩展性:无需修改 Redis...
2025-03-07 14:54:35
1098
原创 HDFS多AZ容灾技术揭秘:构建高可用分布式存储系统
1. 背景当HDFS节点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,HDFS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO(Recovery Point Objective)、RPO(Recovery Time Objective)核心指标。HDFS 多机房的...
2025-03-06 14:38:28
991
转载 开箱即用!专业训推能力“加持” 360数智推出“DeepSeek大模型一体机”解决方案...
点击蓝字关注我们面对火遍全球的DeepSeek,安全为先的大型政企如何迅速来启用它?日前,360数智推出“DeepSeek大模型一体机”解决方案,为打算私有化部署DeepSeek、却又在安全合规、大模型深度使用方面有所顾虑的政企用户提供了“本地化部署、开箱即用”的全新选择。据了解,该解决方案依托于360天纪DeepSeek大模型训推一体机打造,提供了从底层算力、模型服务、训练能力、应用开发的全栈解...
2025-03-05 18:58:59
744
原创 云舟观测告警服务能力,智能护航业务安全
在可观测性系统中,告警能力是保障业务系统稳定性和可靠性的重要支柱。通过及时发现业务系统中的异常或潜在风险,告警系统能够迅速通知管理员及运维人员,帮助其快速响应并采取修复或优化措施,从而有效防止问题升级,降低MTTR。本文将重点介绍360智汇云云舟观测产品中统一告警服务的架构设计与核心功能。一、背景1.1 告警服务的重要性业务系统通常会重点确保系统的稳定运行,通过业务埋点、主动推送等方式采集监控数据...
2025-02-27 14:28:47
983
原创 虚拟网络跨VPC NAT
一、背景函数计算服务中,业务用户提交计算任务到服务平台,在函数计算平台底层,以K8S作为基础设施底座,所有业务用户提交的计算任务都以K8S POD形式运行,所有函数POD运行在函数服务VPC,该VPC不区分业务POD,所有业务用户的函数POD在同一VPC内。业务用户在自有VPC内部署相关服务,如DB等,业务在函数计算平台提交的计算任务可访问业务自有VPC内的服务,如在函数任务中的代码访问业务自有V...
2025-02-20 12:03:38
1036
转载 DeepSeek发布新研究成果 : 稀疏注意力机制,全文解读版来啦!
DeepSeek新论文来啦!这篇文章在X(推特)上一经发布就引起了巨大轰动~这篇论文提出了一个新的注意力机制——原生稀疏注意力,硬件对齐且原生可训练的稀疏注意力。值得一提的是,DeepSeek创始人梁文锋亲自参与研究,可见DeepSeek团队对此研究的重视!本文主要对DeepSeek发布的这篇文章进行总结和解读~论文标题:Native Sparse Attention: Hardware-Alig...
2025-02-19 17:07:57
156
原创 360在离线混部 koordinator 和 hadoop-yarn 方案
公司内容器云平台使用的koordinator来调度和管理离线pod,大数据平台使用的hadoop yarn的方式来调度和运行离线作业。早期的使用方式是yarn以常驻pod的方式运行在k8s集群并通过koordinator的压制驱逐等手段来保证在线服务的稳定(每个node运行一个离线pod)。但这种运行方式有两个的弊端:1、比如申请的离线pod规格为16c 32G,运行过程中koordinator将...
2025-02-17 14:21:20
997
原创 应对流量洪峰:ingress-nginx弹性化改造与HPA压测全解析
一、背景概述deployment与daemonset部署服务方式的差异点:deployment部署的副本pod可以分布在各个node上,每个node可以运行多个副本,可以根据资源压力配置HPA。daemonset在于每个node上最多只能运行一个副本,常用场景有运行日志收集、运行监控等。公司早期公共集群部署ingress-nginx的模式为:daemonset + node label(设置节点l...
2025-02-13 16:57:42
737
原创 微服务治理注册中心在go-zero中的具体实现原理
1. 了解注册中心微服务中服务发现注册是较为核心的话题,比如在当前项目中,社交api服务在实现好友列表查询的时候需要调用到用户rpc服务和社交rpc服务中的方法和功能才能完成业务。此时对社交api服务而言就需要知道用户rpc服务和社交rpc服务的地址,如果因需求更换了用户rpc服务的信息,而社交api没有发现则会直接影响到整个系统。关于服务地址的方式获取方式有两种:静态:基于在配置文件中定义好各个...
2025-01-21 16:24:24
968
原创 Cx5网卡HW LAG Vxlan分流方案设计与实现
1.背景计算节点虚拟网络OVS DPDK V1版本接管了Cx5网卡PF单口VM测试转发带宽仅8Gbits/s左右,网卡双口50Gbits/s的带宽能力没有得到有效利用。核心原因是网卡双网口没有做Bond给OVS DPDK接管并且收包没有应用多队列的特性。我们针对Cx5网卡设计实现了PF Bond与Vxlan分流,并做了一系列性能调优来实现Cx5网卡双网口50Gbit/s带宽的利用。2.方案设计2....
2025-01-20 17:35:43
1060
原创 理解rpc/grpc及请求协议http2
1. 理解rpcrpc在大众的定义上称为:远程过程调用,下面举个例子给大家分析。如:从订单服务中获取用户的信息在单体服务下(new UserService).GetUser(uid)我们可以这样的方式调用获取,但是当服务拆分开后代码也拆分为两份,这个时候就无法如单体服务那样new的方式调度,需通过rpc进行调度。在每个微服务中会开启一个rpc服务供其他服务访问,请求方这时会创建一个rpc的客户端...
2025-01-16 14:54:46
885
原创 智汇云ECS挂载OBS存储桶
1.背景介绍 对象存储OBS是互联网存储解决方案,能让所有开发人员访问同一个具备可扩展性、可靠性、安全性和快速价廉的数据存储基础设施。对象存储OBS 提供了一个简单 Web 服务接口,可用于随时在 互联网上的任何位置存储和检索任何数量的数据。开发人员可以利用OBS提供的REST API接口,命令行接口或者支持不同语言的SDK访问S3服务。 对于原来使用本地目录访问数据的应用程序,比如使用本地磁盘或...
2025-01-14 14:15:44
940
原创 360AI平台资源可视化建设
1.引言在当前高性能计算(HPC)、人工智能训练以及大规模分布式系统的快速发展中,计算集群成为了核心基础设施。然而,集群规模的不断扩张和复杂性的提升使得资源利用和优化变得愈发重要。集群资源可视化作为一种直观且高效的分析手段,为用户和管理员提供了对计算资源状态、节点健康状况和任务性能的深刻洞察,从而助力系统优化和业务决策。本文从集群资源可视化的整体概念出发,详细探讨360AI平台集群、节点、任务以及...
2025-01-13 14:24:41
989
原创 系统性认识容器镜像
一、简介1.docker image的本质镜像就是联合文件系统(UnionFS),目前用的驱动是overlay2(docker)/overlayfs(containerd)。2.docker的镜像rootfs,和layer的设计镜像的基础层是rootfs:任何程序运行时都会有依赖,无论是开发语言层的依赖库,还是各种系统lib、操作系统等,不同的系统上这些库可能是不一样的,或者有缺失的。为了让容器运...
2025-01-10 10:03:56
978
原创 大模型微调浅析
随着transformer技术的快速发展,大模型在自然语言处理领域取得了显著成果。然而,这些通用模型在面对特定任务时,往往需要进行进一步的调整和优化。大模型微调(Fine-tuning)作为一种关键的技术手段,能够有效提升模型在特定任务上的表现。本文将从基本概念、常见方法、技术细节、实践案例以及未来挑战等方面,对大模型微调进行介绍。1. 大模型微调的基本概念大模型的训练过程通常由两个关键阶段构成...
2025-01-09 16:56:29
644
原创 360AI平台存储管理实践
1. 前言360AI平台是一个覆盖机器学习、自然语言处理、计算机视觉等多领域的人工智能技术平台,提供数据管理、模型训练、在线推理等一站式解决方案。随着 360AI平台的快速发展,任务复杂度和资源需求逐步提高。以 Kubernetes(K8s)为核心的容器编排技术,结合 VolcanoJob 等调度插件,为计算密集型任务提供了灵活、高效的资源调度能力。然而,在多集群、多任务的复杂场景下,存储管理面临...
2025-01-08 16:26:06
994
原创 高性能分布式存储系统关键技术调研
在高性能存储设备越来越普及的今天,如何发挥高性能存储设备的性能,已经成为一个大数据企业绕不开的话题。传统的面向HDD或SATA SSD设计的分布式存储系统在高性能硬件上,甚至很难将硬件的性能发挥到其1/10。同时,伴随着AIGC、数据库系统的发展,越来越多的业务对高性能分布式存储产生了需求,同时也有更高要求。随着数据规模的增长,堆砌硬件的方式已经不能满足企业的正常发展。通过设计基于全闪硬件的高性能...
2025-01-07 17:37:04
814
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人