自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(247)
  • 收藏
  • 关注

转载 「布道师系列文章」解析 AutoMQ 对象存储中的文件存储格式

作者|王金龙,知乎消息队列研发工程师,开源爱好者,长期关注云原生基础组件01 背景 作为一款新一代消息中间件,AutoMQ 充分利用了云时代的存储基础设施,保证高性能的同时极大简化运维的繁琐程度。与基于物理机自建的 Kafka 集群相比,AutoMQ 的成本降低非常明显。这要归功于底层 s3stream 技术对 S3 对象存储的充分利用。接下来,让我们深入探讨一下 AutoMQ 在对象存储...

2024-05-19 16:19:00 4

转载 原理剖析| Kafka Exactly Once 语义实现原理:幂等性与事务消息

01 前言 在现代分布式系统中,确保数据处理的准确性和一致性是至关重要的。Apache Kafka,作为一个广泛使用的流处理平台,提供了强大的消息队列和流处理功能。随着业务需求的增长,Kafka 的事务消息功能应运而生,它允许应用程序以一种原子的方式处理消息,即要么所有消息都被正确处理,要么都不处理。本文将深入剖析 Kafka 的 Exactly-Once 语义实现原理,包括幂等性与事务消...

2024-05-11 23:24:18 20

转载 程序员如何提升个人技术影响力

目录一、为什么要分享这个话题?二、为什么要打造技术影响力?三、怎么提升技术影响力?1. 输入-多学习自己对应领域的知识2. 输出-Github项目贡献3. 技术文章4. 演讲 4.1 怎么上行业大会演讲? 4.2 怎么讲?演讲技巧?5. 出书四、总结都说程序员的成长是码出来的,此话不假。但如果既会写代码,还会写文章,还能讲PPT,...

2024-05-10 19:30:59 14

转载 一次性讲清楚「连接池获取连接慢」的所有原因

目录一、前言二、连接池监控三、排查思路1.连接池存在等待连接2.应用负载过高3.应用 STW4.网络阻塞5.数据库&数据库中间件异常四、总结一前言应用连接数据库基本上都是通过连接池去连接,比如常用的 HikariCP、Druid 等,在应用运行期间经常会出现获取连接很慢的场景,大多数同学都是一头雾水,不知道从哪下手。而且很多时候都是偶发场景...

2024-04-22 23:41:13 42

转载 Kafka 迁移工具 MirrorMaker2 原理起底

注意:本文内容截止到 2024 年 2 月 26 日发布的 Kafka 3.7.0 版本。MirrorMaker2(后文简称 MM2)在 2019 年 12 月随 Kafka 2.4.0 一起推出。顾名思义,是为了解决 Kafka 集群之间数据复制和数据同步的问题而诞生的 Kafka 官方的数据复制工具。在实际生产中,经常被用来实现 Kafka 数据的备份,迁移和灾备等目的。在此也预告一下,Aut...

2024-04-21 21:17:23 43

转载 JVM STW 和 Dubbo 线程池耗尽的相关性

目录一、背景二、Thread pool is EXHAUSTED介绍三、玄学Thread pool is EXHAUSTED四、为什么不消费socket recv buffer五、怎么追溯JVM进程STW六、总结一背景在日常的技术支持过程中,经常会遇到如下玄学问题的咨询:从监控上看,进程资源占用正常。从监控上看,服务流量平稳,没有流量突增。从监控上看,线程池状态正常,没有瓶颈。但是,在上述条件下,...

2024-04-20 21:24:20 25

转载 Zookeeper SLA 也可以 99.99%

目录一、背景二、探索分析1. 确定方向2. 内存分析3. 意外发现4. 优化探索4.1 锁的优化4.2 存储优化4.3 逻辑优化三、性能压测1. JMH 微基准测试2. 性能压测 2.1 场景一:20W znode 短路径 2.2 场景二:20W znode 长路径3...

2024-04-14 08:30:26 21

转载 原理剖析:AutoMQ 如何实现分区持续重平衡

01 引言 在一个线上 Kafka 集群中,流量的波动、Topic 的创建和删除、Broker 的消亡和启动都随时可能发生,而这些变化可能导致流量在集群各个节点间分布不均,从而导致资源浪费、影响业务稳定。此时则需要主动将 Topic 的不同分区在各个节点间移动,以达到平衡流量和数据的目的。当前,Apache Kafka 仅提供了分区迁移工具,但具体的迁移计划则需要运维人员自行决定,而对于动...

2024-04-10 23:46:20 32

转载 深入理解Sora技术原理

目录一、文本生成图片的流程1.潜在的扩散模型2.Transformer架构二、Sora 生成视频的流程1.视频压缩网络2.空间时间补丁3.Diffusion Transformer三、从训练到生成视频全流程1.视频标注与训练2.视频生成与处理OpenAI 发布的视频生成模型 Sora(https://openai.com/sor...

2024-04-10 08:20:21 43

转载 同城双活:交易链路的稳定性与可靠性探索 | 得物技术

目录作者:Alan 英杰 Matt 羊羽一、背景1. 异地双活2. 同城双活二、设计思路三、双活整体架构四、具体改造方案1. 交易应用侧双活改造2. 交易依赖方应用双活改造 3. 中间件&基础组件 3.1 识别机器资源可用区 3.2 中间件RTO 3.3 主要组件双活改造方案 3.3.1...

2024-03-25 22:00:18 88

转载 Kafka 痛点专题|AutoMQ 如何解决 Kafka 冷读副作用

背景Apache Kafka (下文简称 Kafka)作为一款成功的流处理平台已经在各行各业中有广泛的应用,并且具备极其强大的软件生态。但是,其一些缺点也给使用者带来了很大的挑战。AutoMQ 是基于云原生架构实现的新一代 Kafka ,与 Kafka 100% 完全兼容。致力于解决 Kafka 原有的迁移复制低效、缺乏弹性、成本高昂等缺点,成为新一代云原生 Kafka 解决方案。为了让读者更好...

2024-03-15 22:30:12 76 1

转载 解密得物Trace2.0:日PB级数据量下的计算与存储性能优化实战

目录一、背景二、客户端多通道协议1.采集多通道协议三、计算模型四、数据压缩五、存储方案六、升级 JDK211. 升级后效果七、结语一背景Trace2.0 是得物监控团队引入 OpenTelemetry 协议并落地的全新应用监控系统,从 2021 年底正式开始使用。在过去的两年里,我们面临着数据量呈爆炸式增长的巨大挑战。然而,通过对计算和存储的不断优化,我们成功地控制了机器数量的指...

2024-01-28 23:49:35 612

转载 AutoMQ Kafka 云上十倍成本节约的奥秘(一): SPOT 实例

近年来,无论是海外还是国内,虽然受疫情影响,公有云的市场规模增速有所放缓,但是云的市场总规模仍然是持续增长的。公有云作为一个各个国家重点布局的战略方向和其本身万亿级市场的定位[1],我们学习用好云是非常有必要的。AutoMQ Kafka 充分认识到“云优先”的重要性,围绕公有云具备规模化效益和技术红利的云基础设施重新设计了 Kafka。在保证 100% 兼容 Apache Kafka 的基础上带来...

2024-01-14 11:53:37 100

转载 得物云原生容器技术探索与落地实践

目录一、前言二、云原生应用管理1.云原生应用管理方式2.多集群管理方案三、容器调度优化与与混部1.应用画像2. 资源预占3.平衡调度4.在实时混部5.在离线混部6.弹性伸缩四、容器资源和成本治理优化1. 机型替换2.资源池管理3.工作负载规格治理4.产品自建5.多云策略五...

2024-01-07 18:11:27 737

转载 得物基于 StarRocks 的 OLAP 需求实践

1. 什么是 StarRocks新一代极速全场景MPP数据库,可以用 StarRocks 来支持多种数据分析场景的极速分析;架构简洁,采用了全面向量化引擎,并配备全新设计的 CBO 优化器,查询速度(尤其是多表关联查询);很好地支持实时数据分析,并能实现对实时更新数据的高效查询, 还支持现代化物化视图,以进一步加速查询;用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模型;兼容 MySQL...

2023-12-24 16:52:11 710

转载 得物云原生全链路追踪Trace2.0

00xcc 开篇2020 年 3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进入了微服务时代。系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间的依赖也变得复杂,对服务治理等相关的基础建设要求也更高。对服务进行监控是服务治理、稳定性建设中的一个重要的环节,它能帮助提早发现问题,预估系统水位,以及对故障进行分析等等。从 2019 年末到现在,...

2023-12-17 10:30:49 1267

转载 毕玄谈技术成长之路

引言:本期话题就是整理自“内部技术沙龙SmartCode--之毕玄《技术成长之路》”,内容包括如何提升技术基本能力、如何做好架构师角色、如何做好技术Leader这样的角色;正文不仅对本次分享进行了梳理,还把大家关注的QA也放在了文末,希望这篇文章能够给你带来一定的启发。1.分享嘉宾介绍 - 毕玄2. 技术成长之路总结来讲,不管往哪个技术方向走,都不存在好坏的说法;对于所有技术人员来讲,适合自己就...

2023-12-16 20:24:48 114

转载 Dubbo 3.3.0-beta 版本正式发布

近日,Apache Dubbo 发布了 3.3 分支大版本 3.3.0-beta.1,相较于 3.2 系列版本,3.3.0-beta 引入了一些重量级的功能升级,按照社区规划,3.3 也将是 Dubbo3 非常重要的一个里程碑大版本,在 3.3.0 首个正式版本之后 Dubbo3 将正式进入长期稳定维护态,即标志着 Dubbo3 作为面向云原生时代的下一代微服务框架将具备规划的所有核心功能。让我们...

2023-12-10 19:03:07 45

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 36

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 38

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 31

转载 《RocketMQ 运维经验圆桌交流会》圆满落幕,技术大咖齐聚线上热议解决方案!...

11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案...

2023-12-03 17:26:11 52

转载 虚拟线程原理及性能分析

目录一、背景二、为了提升吞吐性能,我们所做的优化1.串行模式2.线程池 +Future 异步调用3.线程池 +CompletableFuture 异步调用三、一请求一线程的模型四、虚拟线程 1.线程术语定义 2.虚拟线程定义 3.虚拟线程创建 4.虚拟线程实现原理5.虚拟线程内存占用评估6.虚拟线程的局限及使用建议...

2023-12-02 22:43:38 172

转载 RocketMQ4.9.7性能压测揭秘

一问题与挑战随着公司“降本增效”理念逐步深入落实贯彻,消息中间件与运维团队今年备战“双十一”的基本原则:不增加新的资源投入情况下,确保今年“双十一”平稳进行。为了应对“双十一”,必须对现有集群的性能进行摸底,故为此搭建了一个4主4从的集群,48C/256G/SSD磁盘,200个主体、400个消费组同时运行,发现集群的总TPS达到28W后集群就出现了Commitlog文件转发延迟,出现拐点,压测结束...

2023-11-26 12:04:16 577

转载 Faas在哈啰AI平台的落地实践

为什么哈啰AI平台需要FaasAl平台当前的痛点一是运维复杂问题,AI平台有多种不同语言的模型推理服务, 如python、C++(tf-serving)、Java等,各自管理上百个不同类型的模型;架构也很复杂,存在大型单体应用、多container应用、小型GPU应用等多种服务组织方式;同时,手动运维有余,自动化工具不足。二是稳定性问题,成百上千模型集中式部署,存在明显热点问题,在应对一些突发流量...

2023-11-19 20:31:30 116

转载 得物API元数据中心探索与思考

目录一、背景二、Mooncake API文档维护1.API文档组织规范1.1 规范应用名称1.2 规范文档分类2.API文档生成2.1 MooncakeUpload Idea插件 2.1.1 实现原理 2.1.2核心实现2.1.3结果2.2 基...

2023-10-28 18:52:01 711

转载 得物 Redis 设计与实践

目录一、前言二、自建 Redis 架构及核心组件1.ConfigServer1.1 故障检测与转移2.Redis-Proxy2.1 同城双活2.2异步双写3.Redis-Server3.1Async-Fork 特性3.2数据迁移三、自动化运维平台1.运维平台架构2....

2023-10-15 21:07:33 1371

转载 ZGC关键技术分析

目录一、引言二、ZGC术语三、ZGC性能数据四、ZGC关键特性1.着色指针(Colored Pointer)2.读屏障(Load Barrier)五、ZGC执行周期1.初始标记(STW1)2.并发标记(M/R)3.再标记阶段(STW2)4.并发转移准备(EC)5.初始转移(STW3)6.并发转移(RE)六、ZGC算法演...

2023-09-23 20:30:58 83

转载 从另一个视角记录蓝绿发布

目录一、前言二、常见的发布形式有哪些,分别有什么优势?1.全量发布2.滚动发布3.蓝绿发布4. 灰度发布三、得物的蓝绿发布是如何实现的?1.蓝绿发布的流程2.得物蓝绿发布的架构3.蓝绿接入注意事项四、得物SRE团队对蓝绿发布的相关支持1.容器集群针对蓝绿的改造2.蓝绿发布扩容资源优化3. 发布监控五、蓝...

2023-09-17 22:43:05 592

转载 Apache RocketMQ 5.0 消息进阶:如何支撑复杂的业务消息场景?

一致性Cloud Native首先来看 RocketMQ 的第一个特性-事务消息,事务消息是 RocketMQ 与一致性相关的特性,也是 RocketMQ 有别于其他消息队列的最具区分度的特性。以大规模电商系统为例,付款成功后会在交易系统中订单数据库将订单状态更新为已付款。然后交易系统再发送一条消息给 RocketMQ,RocketMQ 将订单已付款的事件通知给所有下游应用,保障后续的履约环节。但...

2023-09-10 21:03:28 56

转载 自研API网关实践之路

一业务背景老网关使用 Spring Cloud Gateway (下称SCG)技术框架搭建,SCG基于webflux 编程范式,webflux是一种响应式编程理念,响应式编程对于提升系统吞吐率和性能有很大帮助; webflux 的底层构建在netty之上性能表现优秀;SCG属于spring生态的产物,具备开箱即用的特点,以较低的使用成本助力得物早期的业务快速发展;但是随着公司业务的快速发展,流量...

2023-09-03 17:00:46 632

转载 云原生弹性伸缩控制器实现细节

什么是弹性伸缩基本原理弹性伸缩(Horizontal Pod Autoscaler)是kubernetes内置的一种副本控制器,主要功能是检测分析pod的负载变化情况来判断是否需要调整服务pod个数并自动将服务pod数扩缩至伸缩算法的预期值以满足服务正常运行,目前逐渐成为了各大服务器厂商的标准配置。其基本原理如下图:由图可看出,弹性伸缩调度是一个间歇运行的闭环系统,主要有以下三个组件构成:Metr...

2023-08-27 20:57:50 141

转载 哈啰云原生架构落地实践

弹性伸缩技术实践全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择。使用原生弹性HPA遇到的问题当时第一时间考虑用原生HPA组件,但在实际调研和小规模使用的时候发现了很多问题。一方面是内置的问题,如原生不支持自定义指标和定时扩缩容,使用率计算基于resources.requests,使用单个Goroutin...

2023-08-06 15:07:13 64

转载 异步IO框架 io_uring

1Linux IO 模型分类相比于kernel bypass 模式需要结合具体的硬件支撑来讲,native IO是日常工作中接触到比较多的一种,其中同步IO在较长一段时间内被广泛使用,通常我们接触到的IO操作主要分为网络IO和存储IO。在大流量高并发的今天,提到网络IO,很容易想到大名鼎鼎的epoll 以及reactor架构。但是epoll并不属于异步IO的范畴。本质上是一个同步非阻塞的架构。关...

2023-07-30 23:06:11 232

转载 热点探测技术架构设计与实践

1概述说到热点问题,首先我们先理解一下什么是热点?热点通常意义来说,是指在一段时间内,被广泛关注的物品或事件,例如微博热搜,热卖商品,热点新闻,明星直播等等,所以热点产生主要包含2个条件:1.有限时间, 2流量高聚。而在互联网领域,热点又主要分为2大类:1. 有预期的热点:比如在电商活动当中推出的爆款联名限量款的商品,又或者是秒杀的会场活动等2. 无预期的热点:比如受到了黑客的恶意攻击,网络爬虫频...

2023-07-23 11:55:12 486

原创 No.185# 技术管理框架知识点随记

引言陆续参加了公司组织的两场关于技术管理的培训,时间一长也快忘的七七八八了。本文以刘建国《执行技术人管理之路》为基础框架,将知识点做了整理,在需要的时候翻翻。本文主要内容有:技术管理之角色认知技术管理之管理规划技术管理之团队建设技术管理之任务管理技术管理之管理沟通一、技术管理之角色认知下面通过脑图梳里了角色认知的七个点:工作职责、负责对象、关注焦点、工作能力、任务来源、实时手段、技术视角。下面通...

2023-07-16 18:55:18 109

转载 得物自建DTS平台的技术演进

0前言DTS是数据传输平台(Data Transfer Platform的缩写)随着得物App的用户流量增长,业务选择的数据库越来越多样化,异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务发展,我们决定自建DTS平台。本文主要从技术选型、能力支持与演化的角度出发,分享了在DTS平台升级过程中获得的经验,并提供一些参考。1技术选型DTS的主要目标是支持不同类型的数据源之间的数据交...

2023-07-09 21:09:26 648

转载 ClickHouse 冷热分离存储在得物的实践

1. 业务背景得物上一代日志平台的存储主要依赖于 ES。随着公司业务的高速发展,日志场景逐步产生了一些新需求,主要表现在:应用数量逐步增多,研发需要打印更多的日志定位业务问题,安全合规需要保留更长时间的日志。随着 Clickhouse 的应用广泛,我们了解到行业部分知名公司已经将日志平台逐步由 ES 迁移至Clickhouse,以此来获取更好的写入性能与高压缩比。因此我们与日志平台研发团队开始进行...

2023-06-21 22:54:57 1107

转载 得物染色环境落地实践

1背景测试环境治理一直是各大公司非常重要的一个课题,测试环境稳定性很大程度影响迭代开发&测试效率。综合来看,测试环境不稳定的原因主要有以下几点:测试环境的变更非终态变更,经常会有代码发布/配置发布导致服务无法启动或者链路有问题的情况。变更频繁,开发需要联调、测试需要迭代测试,代码需要变更,配置也需要变更,权限控制就比较难做,增加了测试环境不稳定性。并行需求,同一时间单个应用需要多个分支同时...

2023-06-18 15:16:38 658

转载 No.184# 蓝绿发布实践回顾

0缘起随着蓝绿发布项目落地进入试运行,也对蓝绿发布项目做个简要回顾。早在2022年初的时候效能、交易和中间件的同学就如何提高发布效率做过讨论,蓝绿发布当时也被提出。由于彼时有更重要的事情去落地,蓝绿发布也被搁置未能成行。随着染色环境项目的落地,推进接入工作的基本完成。测试开发环境存在的众多问题(多套环境、运维问题、环境冲突、沟通问题)基本得到根治。测试环境得到根治的同时,生产环境自然就成为接下来的...

2023-03-25 16:57:56 582

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除