自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HULK一线技术杂谈

HULK是360的私有云平台,丰富的一线实战经验,为你带来最有料的技术分享

  • 博客(333)
  • 收藏
  • 关注

原创 Ozone 流式读取带来的吞吐收益

1背景1.1 大流量读取场景docker 镜像仓库harbor,往往大的镜像会有20GB以上模型文件的分发,一般的模型文件都会有几百MB至几个GB不等,且多台客户端机器存在同时拉取同一文件现象1.2 现有 Ozone 读取方式的不足Ozone 在逻辑上将对象拆分为 block 存储,而逻辑层面 block 又以 chunk 的形式组织到一个物理的block文件中。目前读取 block 的过程需要获...

2024-10-31 16:53:46 634

原创 流媒体网关媒体源管理

1业务背景360媒体网关连接各类视频源,支持实时监控、直播和点播,实现多协议转换和高效流管理,满足不断增长的用户需求,提升安全性和用户体验。随着物联网(IoT)技术的迅猛发展,越来越多的监控设备接入流媒体网关,实现实时视频传输和远程监控。这些设备通过流媒体网关,能够将采集的视频数据快速转发到云端或本地服务器,确保用户可以随时随地访问监控画面,提高安全性和响应速度。与此同时,直播流媒体的需求持续上升...

2024-10-29 11:19:10 817

原创 云舟观测:基于eBPF监控主机的TCP网络连接

1背景机器网络监控信息在日常问题排查中扮演着至关重要的角色,是不可或缺的工具。通过对网络流量的深入分析,我们不仅能有效评估网络性能,还能迅速识别异常行为,例如流量突然激增、未知的数据传输等,这些对于保障网络安全与稳定至关重要。同时,网络信息中的应用通信记录为我们追溯问题发生的过程和原因提供了宝贵线索,有助于快速定位并解决问题。传统的网络监控主要关注机器的整体流量带宽,而对于上层应用服务的流量监控,...

2024-10-28 15:17:40 548

原创 虚拟机磁盘热切换实现方案

1项目介绍1. 背景360云平台有着长久的历史,底层 IAAS 基于 opentack 二开实现,虚拟机云盘使用业界内成熟稳定的 ceph,随着业务侧对云盘 io 性能的要求不断提高,ceph 的老 Luminous 版本纯 sata 盘性能已经很难支撑内部业务的 IO 需求,尤其是大数据 信息流等 IO 密集型业务,另外因 L 版本 ceph 集群比较老旧,其可维护性/重点指标的可观测行存在很大...

2024-10-24 18:07:43 810

原创 VPC场景虚机热迁网络无感

本文介绍360内VPC(主机OVERLAY)网络模式下实现虚机热迁流程中虚机业务流量无中断的优化方案。01优化背景虚机热迁移主要包含计算、存储、网络三个方面,其中网络层面主要关注的是虚机热迁移过程中,虚机业务网络是否中断。360虚拟网络中,采用Neutron定制化+网关自研的方式实现主机OVERLAY,为VPC的V1版本,在V1版本中,虚机热迁存在15s-30s网络中断,该时间段内虚机业务网络不可...

2024-10-17 15:06:38 900

原创 虚拟化云管服务奥创资源调度

01背景介绍Openstack作为360公司的云计算解决方案,随着公司规模和需求的发展,目前有16个地区机房、29个openstack集群,每个openstack集群有云盘型、本地磁盘型、网络增强型等计算资源池。在这样一个大规模的多云环境中,有着上千台服务器和数以万计的虚拟机,并且时刻有虚拟机创建请求和虚拟机释放请求到达。另外业务侧有按量计费、弹性伸缩、可抢占、部署集等业务类型以及虚拟机规格包括计...

2024-10-15 14:59:42 821

原创 360智算中心:万卡GPU集群落地实践

360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施,旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力,还结合了AI开发平台,使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性,本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程,包括算力基础设施搭建、集群优...

2024-10-11 16:26:29 860

原创 云舟观测:集成开源Grafana Faro构建前端页面性能监控平台

在当今互联网时代,面对纷乱繁杂的网上资源,用户的耐心和注意力是极为宝贵的资源,当用户访问一个网站或应用时,他们期望的是快速且无缝的体验,任何加载延迟或功能故障都可能导致用户流失,影响品牌体验。因此,前端页面性能监控成为了确保网页应用高效运行的重要手段。01前端页面性能监控前端页面性能监控是指通过监测和分析前端网页或应用程序的加载速度、渲染效率以及用户交互响应时间等指标,以提供优化建议和改进前端体验...

2024-09-26 14:58:58 1285

原创 文件存储HDFS Datanode 拆锁方案及实现

在大数据存储架构中,Hadoop 分布式文件系统(HDFS)作为一种重要的存储解决方案,扮演着关键角色。HDFS 的 Datanode 是负责存储实际数据的节点,它在数据的读写、复制和管理方面承担了重任。为了确保数据的一致性和完整性,HDFS 中采用了多种机制,其中锁机制在 Datanode 的性能和可用性中起到了重要作用,本文将探讨 Datanode 拆锁的背景及其重要性。01背景 Data...

2024-09-24 17:36:54 855

原创 通过volcano增强的智能基础设施,优化LLM工作流程

从 2023 年开始,大模型进入了爆发阶段, 大模型出色的理解能力和推理能力获得了大量关注。如何更好地训练和推理大模型也成为了亟待解决的技术难题。智汇云承载了360内部大模型开发、训练、推理和数据处理等全流程工作。在建立大模型基础设施的工作中,智汇云遇到了许多难点,并且通过各种方式一一解决。本篇文章将介绍如何通过优化调度流程解决大模型基础设施遇到的一些难点。在大模型基础设施的构建中,使用 Kube...

2024-09-19 11:39:36 824

原创 网络播放器兼容性、扩展性与性能

近年来,点播、直播场景已成为越来越多产品的核心模块。而主流浏览器自带的原生播放器,难以满足业务提出的日益复杂的需求。从兼容性、性能、可扩展性、安全性等方面考虑,需要结合web端现有API与音视频技术、开发一款独立内核的万能网络播放器。本文从兼容性、可扩展性、性能提升角度分享网络播放器相关技术。01可扩展的分层架构当前主流播放器一般采用组件化内核来实现对多种协议、编码格式的支持。如支持flv.js,...

2024-09-13 11:54:11 978

转载 Pika版本升级线上最佳实践

Pika作为完全兼容redis协议,以 RocksDB 为存储引擎的的大容量、高性能、多租户、数据可持久化的弹性 KV 数据存储方案,经过两年的持续改进与开发, 已经从 3.0 版本升级到 3.5.4 版本。在这个过程中,Pika 不仅优化了性能与稳定性,还引入了许多新特性和增强功能。本篇文章将结合我们当前线上升级经验,详细介绍 Pika 在版本升级中的注意事项、操作步骤,以便大家能更加方便的进行...

2024-09-11 12:03:31 154

原创 Apache DataFusion查询引擎简介

01简介DataFusion是一个查询引擎,其本身不具备存储数据的能力。正因为不依赖底层存储的格式,使其成为了一个灵活可扩展的查询引擎。它原生支持了查询CSV,Parquet,Avro,Json等存储格式,也支持了本地,AWS S3,Azure Blob Storage,Google Cloud Storage等多种数据源。同时还提供了丰富的扩展接口,可以方便的让我们接入自定义的数据格式和数据源。...

2024-09-09 14:55:02 1057

原创 函数计算的版本管理与灰度发布

为了满足不断变化的市场需求和用户期望,以及应对日益复杂的安全挑战和业务策略的变化,有效的版本管理对于服务的开发和运营至关重要。服务版本管理不仅仅是一个技术实践,更是确保业务成功和用户满意的关键环节。版本管理使得团队能够有序地计划、开发和发布新功能,同时保留并支持旧版本,确保业务的持续运作和用户体验的改善。通过有效的版本管理,团队能够在快速变化的市场环境中保持敏捷性和竞争力,为客户提供稳定、安全和高...

2024-09-05 14:36:49 913

原创 虚拟化云管服务奥创的优化升级以及多集群下VPC网络实现

01背景介绍奥创(Ultron)是360内部虚拟化功能的云管服务, 通过封装虚拟化相关功能, 统一对外提供虚拟化openstack相关api等服务, 可以理解为openstack集群的一个统一网关服务,对内支撑平台HULK等平台,提供云计算相关功能。目前虚拟化提供的包括云主机,云硬盘,云网络,安全组,裸金属,负载均衡等功能均由奥创统一对外提供服务。但是随着功能的不断丰富、用户数量的增加,同时对极致...

2024-08-27 14:40:33 1119

原创 手把手搭建私人在线备份系统

对于打工人来说,什么文件最重要?那就是——打不开的文件最重要! 那么,如何才能避免这样的事情发生呢?这时候就需要使出我们的大杀器——文件备份!文件备份怎么搞才最合适呢?是使用移动硬盘?是使用U盘?是使用光盘?是打印出来?如果每天让打工人自己手动备份一次,想想就是一件令人崩溃的事情。所以,是否可以通过自动备份的方式来实现呢?而且,即便自己的电脑爆炸了,备份的东西还是完好无损的。备份按使用情况来计费,...

2024-08-20 17:18:46 912

原创 视频云服务质量(Qos)之抗丢包策略

QoS(Quality of Service,服务质量)是网络技术中用来确保某些数据流的优先级和服务质量的一系列策略和机制。在实时通信和流媒体传输中,QoS尤为重要,因为它可以减少延迟、丢包和抖动,从而提高用户体验。包括NACK策略、TWCC策略等。NACK是一种反馈机制,当接收端检测到丢包时,它会向发送端发送一个NACK消息,请求重新发送丢失的数据包。TWCC是一种拥塞控制机制,旨在减少网络拥塞...

2024-08-19 17:13:03 989

原创 360 容器云 VPC 网络落地上量

01前言随着业内容器化的普及和业务发展,公司内集群规模、集群数量不断增加。其中为了实现 pod ip 公司全网可达,采用了向接入交换机宣告 bgp 的方案。遇到的问题是集群、pod 网络需要精确规划,交换机等网络设备需要额外管理、配置。开发、管理、运维成本较高,并形成故障隐患。加之公司虚拟化团队有成熟的云网络方案,可以使容器网络接入使用虚拟化云网络,实现降本增效的同时,又满足灵活、稳定、高性能等诉...

2024-08-16 10:48:44 648

原创 云存储技术:HBase & HDFS 无感知迁移方案

在大数据生态系统中,HBase 和 HDFS 是两个关键组件。HBase 是一个分布式列式数据库,常用于实时读写大规模数据;HDFS 是一个高可靠的分布式文件系统,用于存储海量数据。 1、背景随着业务的发展和技术的进步,可能需要对现有的HBase/Hadoop集群进行迁移,或是因为各种原因(如成本控制、硬件升级、地理位置调整等)进行机房搬迁。这样的操作不仅涉及到大量的技术细节,还需要考虑业务连续性...

2024-08-08 16:14:41 988

原创 容器七层负载均衡解决方案——IngressNGINX

一、概述当我们使用 K8S 对容器进行编排时,基于负载均衡和高可用方面考虑,且设计上 Pod 易失态,不能直接使用 PodIP 作为外部访问的方式。因此,K8S 官方提供了一些负载均衡的解决方案。这其中有四层和七层两种,本文主要介绍 K8S 内的七层负载均衡实现方案 Ingress,它是主流的 K8S 南北向七层负载均衡实现。二、功能介绍1. 功能入口项目 -> 应用列表 ->...

2024-08-05 15:39:42 690

原创 初识函数计算构建系统

01背景在云原生环境中,应用程序都需要以容器镜像的形式部署,相对于传统的应用程序部署方式,云原生应用部署存在以下挑战:开发者不仅要进行业务逻辑的开发,还要维护自己项目的 Dockerfile需要容器镜像具有一定的安全性云端可能会有特定的部署策略,所以会要求容器镜像具有一定的规范性针对以上挑战, 我们在函数计算平台中增加了构建系统 build-platform 。开发者上传代码到 build-pla...

2024-07-29 19:26:25 351

转载 弹性伸缩在360私有云平台的落地

1.介绍“弹性”是云服务特有的一种高阶能力。弹性伸缩,简称AS(Auto Scaling)。用户可以根据业务需求和策略设置伸缩规则,在业务需求增长时自动为业务增加虚拟化资源,以保证计算能力。在业务需求下降时自动减少虚拟化资源,可节约成本,也可帮助用户根据负载对业务服务削峰填谷,平衡成本与资源。业务量相对稳定的服务,可使用弹性伸缩实现健康监测以及异常状态的资源自动替换,从...

2022-07-19 14:02:04 718

原创 认识和学习orchestrator之基本使用篇

01介绍orchestrator目前GitHub上star 4.5k+,非常适用于有多个数据中心MySQL集群的管理。该工具使用起来很简单,但能用好却不容易,其配置参数将近200个,后端存储表47张,下面将介绍orchestrator以及它的使用方法。02orchestrator是什么2.1功能其是一个管理MySQL复制拓扑的高可用、管理、可视化的工具。会定时采集探测到...

2022-04-21 19:54:06 4976 1

原创 记一次kafka集群频繁crash的排查过程

01概述kafka集群中的某些broker会随机重启,并且重启没有什么规律。broker重启对于client端使用层面是无感知的,但是在数据一致性、稳定性方面存在风险。broker重启时,...

2022-03-15 14:21:00 987

原创 基于主机Overlay和自研虚拟化网关的VPC在360的落地

01背景1.1 概述随着公司业务的不断发展,用户对网络也提出了更多的需求。一方面360公司25G机房逐步上线,交换机架构升级,导致原有的虚拟化网络方案无法支持虚机的跨交换机迁移,而且部分特...

2022-03-08 16:12:15 4210

原创 MySQL子查询原理分析

01前言子查询,通俗解释就是查询语句中嵌套着另一个查询语句。相信日常工作中接触到 MySQL 的同学都了解或使用过子查询,但是具体它是怎样实现的呢? 查询效率如何? 这些恐怕好多人就不太清...

2022-01-26 18:55:29 1996

原创 横跨7个版本的OpenStack无感知热升级在360的落地与实践

01背景360公司的IaaS服务平台,是基于开源Openstack项目研发的,在发展的数年间已历经了多次版本的更新迭代。2015年,360团队基于Liberty版本自主研发了360公有云(...

2022-01-19 17:13:14 2499

原创 一文读懂VictoriaMetrics集群方案

01简介VictoriaMetrics集群方案,除了有单节点方案的优点以外,还可以做到水平扩容,当有大量数据存储时,VictoriaMetrics集群方案是个不错的选择。官方建议是100w...

2022-01-10 19:51:14 4421 2

原创 Cilium创建pod network源码解析

01Overview我们生产K8s使用容器网络插件 Cilium 来创建 Pod network,下发 eBPF 程序实现 service 负载均衡来替换 kube-proxy,并且使用 ...

2021-12-09 16:48:29 881

原创 MySQL表联接原理分析

01前言用过MySQL的同学肯定都知道表联接,关键字即为join,使用的场景就是“当只查询一个表的信息不能满足我们需求”的时候,就需要用到两个甚至多个表联接查询。但是当不了解表联接的实...

2021-11-24 16:30:16 640

转载 TIKV扩容之刨坑填坑 ​

01背景某tidb集群收到告警,TIKV节点磁盘使用率85%以上,联系业务无法快速删除数据,于是想到扩容TIKV节点,原先TIKV节点机器都是6TB的硬盘,目前只有3TB的机器可扩,...

2021-11-16 18:27:58 832

原创 SPDK bdev详解

01简介在之前的文章《SPDK简述和概览》中我们描述了SPDK应用编程框架的部分内容,基于文中提到的线程模型,SPDK实现了各类子系统、应用服务在调用spdk_app_start方法启动时...

2021-11-11 19:38:21 3124

原创 虚拟化网络与云网关打通的解决方案

01背景 随着云计算与网络技术的不断发展,公司内越来越多的业务有着上云的需求。我们底层虚拟化团队基于社区openstack版本提供云服务,借助社区的力量能够快速实现一套满足基本功能的云平...

2021-11-04 11:00:42 978 1

转载 Pika在360的应用与实践

01业务挑战随着业务量快速发展,用户对Redis这种速查KV缓存型数据库需求越来越高,不仅要快,还要持久化安全。Redis自身aof可保证持久化数据,但是随着内存增长,高内存下ao...

2021-10-27 21:00:00 1257

原创 sync.Once简介

sync.Once介绍sync.Once 是 Go 标准库提供的使函数只执行一次的实现,常应用于单例模式,例如初始化配置、保持数据库连接等。作用与 init 函数类似,但有区别。init ...

2021-10-21 17:53:21 844

原创 使用LXCFS实现容器资源的视图隔离

01问题背景大家都知道,当我们使用top等命令的时候,背后的逻辑是读取/proc 目录下相应的资源文件。本篇文章就通过查看使用 top所执行的系统调用,来窥探一二。stracet...

2021-10-09 17:54:12 296

转载 OpenAtom Pika 来了!

Pika 是一个基于硬盘存储、完全兼容 Redis 协议、解决 Redis 由于存储数据量巨大而导致内存容量瓶颈的 KV 数据库。由奇虎360基础架构组和 DBA 联合开发,秉承共享开放...

2021-09-30 15:04:08 279

转载 VictoriaMetrics入门与实战

01简介VictoriaMetrics,是一个快速高效、经济并且可扩展的监控解决方案和时序数据库。谈到VictoriaMetrics就必须要提到Prometheus,VictoriaMet...

2021-09-29 19:11:20 2445

原创 基于DPDK实现私网VPC间互联互通的云联网解决方案

01背景随着云计算和网络技术的不断发展,越来越多的业务有着上云的需求。上云后业务能够使用云上已有的服务提升开发效率,也可以利用云平台的弹性伸缩特性,及时应对业务的负载变化。360内部也提出...

2021-09-26 18:06:50 445

原创 基于kubeadm10分钟搭建k8s集群指南

一搭建集群背景环境要求:A compatible Linux host. The Kubernetes project provides generic instructions for...

2021-09-16 14:18:12 569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除