自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

文艺倾年的博客

英雄不问出处!

  • 博客(230)
  • 收藏
  • 关注

原创 【强化学习&SWE】如何无容器化进行强化学习训练

研究问题:这篇文章要解决的问题是如何在代码智能领域缩小开放权重模型与专有领导模型(如Claude 4.5 Sonnet1)之间的差距。具体来说,当前的长距离推理和复杂多文件代码库的导航能力存在显著不足。研究难点:该问题的研究难点包括:长距离推理和复杂代码库的导航、模型在分布变化下的稳定性、以及如何在实际部署中优化模型容量和部署占用空间。相关工作:该问题的研究相关工作包括通用智能通过领域特定专业化显著提升的研究,以及在代码智能领域中,现有开放权重模型与专有模型之间的性能差距。

2026-03-21 22:06:20 9

原创 【强化学习&SWE】如何无容器化进行强化学习训练

研究问题:这篇文章要解决的问题是如何在软件工程(SWE)领域中,通过无容器化的方法进行强化学习(RL)训练,以提高训练效率和可扩展性。现有的基于容器的SWE代理框架虽然有效,但存在存储开销大、环境设置慢且需要容器管理权限等问题。研究难点:在大规模训练时,预构建的容器镜像会带来显著的资源开销;容器管理基础设施的限制使得资源受限的研究环境难以扩展;现有的方法在存储和准备时间上的开销较大。SWE-agent框架、SWE-Gym、SWE-smith和SWE-Mirror等方法。

2026-02-21 09:46:39 1055

原创 【源码精讲+简历包装】LeetcodeRunner—手搓调试器轮子(20W字-下)

LeetCode Runner 这个项目的诞生,源于几个很实际的痛点。第一个痛点是调试成本高。LeetCode 虽然提供了在线调试功能,但需要开通会员(国内版 199 元/年,国际版 159 美元/年)。对于学生党和刚工作的开发者来说,这是一笔不小的开支。而且在线调试有很多限制:不能设置条件断点,不能查看复杂对象的内部结构,不能自定义调试表达式。最关键的是,在线调试依赖网络,如果网络不好,调试体验会很差。第二个痛点是数据构造麻烦。

2026-02-15 19:31:44 658

原创 【源码精讲+简历包装】LeetcodeRunner—手搓调试器轮子(20W字-上)

LeetCode Runner 这个项目的诞生,源于几个很实际的痛点。第一个痛点是调试成本高。LeetCode 虽然提供了在线调试功能,但需要开通会员(国内版 199 元/年,国际版 159 美元/年)。对于学生党和刚工作的开发者来说,这是一笔不小的开支。而且在线调试有很多限制:不能设置条件断点,不能查看复杂对象的内部结构,不能自定义调试表达式。最关键的是,在线调试依赖网络,如果网络不好,调试体验会很差。第二个痛点是数据构造麻烦。

2026-02-15 19:12:13 1488

原创 【免训练&测试时扩展】Code Agent可控进化

本文提出受控自我进化(CSE)框架,通过多样化规划初始化、遗传进化和分层进化记忆,解决代码优化中探索效率低的问题。实验表明,CSE在算法效率指标上优于现有方法,尤其在内存优化方面表现突出。该框架实现了早期高效性和持续改进,强调了反馈驱动探索的重要性。未来可探索将进化轨迹蒸馏为训练信号以增强基础模型。

2026-02-13 11:03:45 883

原创 【免训练&测试时扩展】通过任务算术转移思维链能力

本文提出了一种通过任务算术提取和转移推理能力的方法。研究使用公开的QWEN2.5模型,定义推理向量为GRPO与SFT模型参数的差值,并将其添加到目标模型中以增强推理能力。实验在多个基准测试中验证了方法的有效性,1.5亿参数模型在GSM8K上的准确率提升4.9%。结果表明推理能力可作为模块化组件进行转移,但该方法依赖模型间的严格兼容性和现有供体模型。研究为开源AI时代提供了一种高效的模型增强途径,但跨模型家族的转移仍具挑战性。

2026-02-12 11:26:34 1010

原创 【免训练&测试时扩展】不确定性影响模型输出

大语言模型(LLMs)已能通过长思维链(CoT)解决复杂推理任务(如数学计算、程序合成),但其生成的推理轨迹准确性直接决定最终答案正确性。事后迭代优化(Post-hoc Iterative Refinement):模型先生成完整草稿,再通过多轮反馈进行批判和修订(如Self-Refine),但需多次完整前向传播,导致 latency 和计算成本显著增加。内在自校正训练(Training for Intrinsic Self-Correction)

2025-10-15 15:53:37 695

原创 【低训练&测试时推理】测试时针对特定样本进行语言模型优化

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本专栏《人工智能》旨在记录最新的科研前沿,包括等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!💻时间:202505💭推荐指数:🌟🌟🌟🌟🌟💭开源代码:https://github.com/maple-research-lab/SLOT往期精彩专栏内容,欢迎订阅:🔗🔗🔗🔗🔗🔗🔗。

2025-10-14 14:44:29 730

原创 【免训练&强化学习】针对GRPO进行免训练

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本专栏《人工智能》旨在记录最新的科研前沿,包括等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!💻时间:202510💭推荐指数:🌟🌟🌟🌟🌟💭开源代码:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO往期精彩专栏内容,欢迎订阅:🔗🔗🔗🔗🔗🔗。

2025-10-14 14:04:22 987

原创 【Vibe Coding】全面解读Vibe Coding(一)

在2025年的今天,软件开发领域正经历一场静默却深刻的革命。您是否曾有过绝妙的软件创意,却因不熟悉复杂的编程语言而未能实现?在这个AI飞速发展的时代,我们在思考:编程,能否不再是冰冷的技术,更是成为我们表达情感、挥洒创意的温暖媒介?答案是肯定的。而Vibe编程(Vibe Coding)​,正是这一愿景的实现路径。如果你是一位技术爱好者,很可能已经听说过“Vibe Coding”(氛围编程)这个充满未来感和些许神秘色彩的词汇。

2025-10-13 14:12:10 2061

原创 【八股消消乐】手撕分布式协议和算法(基础篇)

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本专栏《八股消消乐》旨在记录个人所背的八股文,包括等相关知识点,期待与你一同探索、学习、进步,一起卷起来叭!

2025-10-11 22:46:54 1008 2

原创 【八股消消乐】品读Redis过期时间机制设计

熟悉Redis过期时间机制,如控制删除开销、定期删除的频率、从库处理过期Key以及持久化处理过期Key。针对xx业务重试机制调整缓存过期时间,缓存命中率基本上没有变化,Redis开销降低了30%。针对用户列表检索业务,设计缓存预加载与超短过期方案,提升了缓存命中率。🚩面试问:- 你有没有遇到过动态确定过期时间的场景?比如说根据请求特征、计算时间、重要性、优先级等,为同一个业务场景的不同请求设置不同的过期时间。- 你有没有用过本地缓存?你知道它是如何删除过期 key 的吗?

2025-07-15 13:54:22 1023

原创 【八股消消乐】Kafka集群 full GC 解决方案

🔍简历内容:为解决xx业务高峰期响应时间长、客户端超时问题,通过优化acks、批次并将压缩算法从 Snappy 更换为 LZ4,提高生产者发送效率。经排查,kafka 集群触发了 full GC 之后,停顿时间就会很长,导致 Kafka 吞吐量显著下降,有时候还会导致 Kafka 认为主分区已经崩溃触发主从选举,通过调大 JVM 的堆,并且在堆很大的情况下,启用 G1 垃圾回收器解决了问题。

2025-07-12 21:50:33 1270

原创 【八股消消乐】浅尝Kafka性能优化

🔍简历内容:熟悉Kafka消息队列原理及常见优化手段,如分段与索引、零拷贝、Page Cache、顺序写、分区、批量处理、压缩等。🚩面试问:Kafka 用到的这些优化技术,很多中间件也用到了,你能举几个例子吗?

2025-07-11 15:18:37 950

原创 【八股消消乐】手写一个简易消息队列

- Kafka 为什么要引入 topic?- Kafka 为什么要引入分区?只有 topic 行不行?- Kafka 为什么要强调把 topic 的分区分散在不同的 broker 上?- Kafka 为什么要引入消费者组概念?只有消费者行不行?

2025-07-10 15:48:56 1361

原创 【八股消消乐】消息队列优化—重复消费

🔍简历内容:熟悉布隆过滤器基本原理,利用布隆过滤器、Redis、唯一索引实现xx业务幂等,避免重复消费。🚩面试问:如果你的流量中,几乎不存在重复请求,比如说重复请求占比不到 1%,如何设计方案。

2025-06-30 13:45:14 719

原创 【八股消消乐】消息队列优化—消息丢失

🔍简历内容:熟悉Kafka写入语义、ISR、OSR、unclean选举基本原理。自主实现Kafka回查中间件并开源,利用分区表保证回查机制的高性能和高可用,基于哈希计算实现消息有序,最终实现消息回查机制,解决了xx业务消息丢失问题。🚩面试问:- 在支持 Kafka 回查机制中,要是回查中间件把消息转发到业务 topic 了,但是标记成已发送失败,会发生什么?- 在支持 Kafka 回查机制中,你可以考虑把关系型数据库换成 Redis,这样换的话有什么优缺点?

2025-06-29 19:20:27 1118

原创 【八股消消乐】消息队列优化—消息积压

🔍简历内容:熟悉消息积压解决方案。针对xx业务(生产者按照用户输入的参数来查找符合条件的数据,然后一条条处理)增长出现的消息积压问题,通过改造生产者、消费者逻辑,实现聚合消息及批量操作,解决了消息积压问题,并消减了两个消费者,节省了资源。对于批量消费,又采用了异步处理方式来提升效率,通过工作线程重试机制,并将消费失败的消息丢回消息队列避免了消息丢失问题。🚩面试问:有些人认为,优化生产者性能也能解决消息积压,你觉得能还是不能?为什么?在出现消息积压的时候,能不能在生产者发送的时候加个限流?毕竟,

2025-06-27 14:30:46 915

原创 【八股消消乐】消息队列优化—消息有序

💬技术栈:RocketMQ、Kafka、RabbitMQ🔍简历内容:熟悉Kafka消息分区。为解决Kafka线上消息积压、broker性能抖动问题,针对业务内有序为topic实现了多分区。参考Redis槽与槽分配机制解决了数据不均匀问题。针对分区扩容采用了停顿方案解决消息失序问题。🚩面试问:你觉得在多分区方案里面,如果某个分区消息积压了就启用异步消费,这种解决思路你觉得怎么样?🔨复盘:单分区、异步消费、多分区(数据不均匀、消息失序)。

2025-06-25 11:50:10 845

原创 【八股消消乐】消息队列优化—延迟消息

🔍简历内容:熟悉延迟队列,基于MySQL自主实现Kafka延迟消息功能,并实现消息的有序性。🚩面试问:如何实现不同 topic 设置不同延迟时间,topic 的分区该怎么设置?延迟消费者又该怎么办?🔨复盘:定时任务调度、分区设置不同延迟时间、基于MySQL实现、批量操作

2025-06-24 14:40:47 976

原创 【八股消消乐】消息队列优化—系统架构设计

为什么要用消息队列?【其实就是再问**在这个业务场景下,不异步、不解耦或者不削峰会有什么问题**?】答案:如果不用消息队列,**性能差、扩展性差、可用性差**。【同步调用的缺点】性能差:业务方必须停下来等待结果,如果我这里需要通知三个下游,那么就需要发起三次调用,并且等它们各自的结果返回之后才能继续往下执行,或者返回响应,这样性能太差了。

2025-06-23 13:54:00 1258

原创 【八股消消乐】Elasticsearch查询优化

根据业务定制Elasticsearch插件,实现基于内存使用率和CPU 使用率限流;针对xx业务实时性不高,引入消息队列Kafka,通过监听binlog并将生成消息丢到Kafka中,实现削峰和限流;针对高并发业务设计策略保护协调节点;设计简易双集群方案来替换CCR方案,成本节约了近80%。熟悉Elasticsearch倒排索引机制,了解Elasticsearch常用优化手段。通过Search After优化分页查询,利用批量提交解决了消息积压问题,对于公司日志Logstash全量同步问题,通过引入降级机制

2025-06-22 16:42:04 1697

原创 【八股消消乐】Elasticsearch优化—检索Labubu

💬技术栈:Elasticsearch🔍简历内容:熟悉Elasticsearch节点角色、索引与分片基本原理。根据业务定制Elasticsearch插件,实现基于内存使用率和CPU 使用率限流;针对xx业务实时性不高,引入消息队列Kafka,通过监听binlog并将生成消息丢到Kafka中,实现削峰和限流;针对高并发业务设计策略保护协调节点;设计简易双集群方案来替换CCR方案,成本节约了近80%。🚩面试问:主分片是由主节点选出来的,那么主节点自己又是怎么选出来的呢?

2025-06-20 14:42:25 1223 2

原创 【多模态&强化学习】基于统一多模态思维链的奖励模型

🔨动机:传统训练方法如监督微调(SFT)`难以获得大规模的多模态CoT奖励数据`;`现有的奖励模型在复杂场景中往往提供不准确或不可靠的奖励信号`。🚩创新:首次提出统一的多模态CoT奖励模型:UNIFIEDREWARD-THINK是第一个能够进行多维、逐步长链推理的统一多模态CoT奖励模型,适用于视觉理解和生成任务。1. 冷启动阶段:首先`使用少量图像生成偏好数据蒸馏GPT-4o`的推理过程,用于模型的冷启动学习CoT推理的格式和结构。2. 拒绝采样阶段:准备大规模的统一多模态偏好数据,激励模型在各

2025-06-19 20:57:26 1201

原创 【八股消消乐】构建微服务架构体系—保证服务高可用

💬技术栈:微服务架构🔍简历内容:通过引入全方位的监控与告警、各种服务治理措施,解决了由于其他业务组功能上线而引起的Redis大对象请求慢,导致核心服务超时问题,最终可用性从99达到了999。🚩面试问:四个九代表全年不可用时间不超过 53 分钟,那么你知道三个九和五个九又各自代表多少时间吗?从你个人经历出发,你认为四个九的可用性,究竟难不难达成?🔨复盘:发现问题、计划方案、落地实施、取得效果、后续改进。

2025-06-19 19:43:48 660

原创 【八股消消乐】构建微服务架构体系—一致性抽象

🔍简历内容:重新设计第三方平台调用接口,提供一致性抽象,并引入客户端治理。全面接入可观测性平台,包括 Prometheus 和 Skywalking,并且配置了告警。🚩面试问:(1)你们公司有没有出现什么因为第三方服务不可用引发的故障?后面你们有没有设计什么改进方案?(2)你的工作经历中有没有什么内容主要是提高同事研发效率的?如果有,你是怎么向面试官介绍这个项目并且让他相信你确实提高了研发效率的?

2025-06-18 23:27:09 762

原创 【多智能体&强化学习】构建端到端的自主信息检索代理

🔨动机:获取高质量、细粒度的浏览数据以反映用户意图和丰富的交互上下文;构建支持长期推理和任务分解的可靠轨迹;设计可扩展且具有泛化能力的训练策略,使网络代理能够在分布外的网页环境中、复杂的交互模式和长期目标下表现出稳健的行为。🚩创新:论文提出了一个系统的、端到端的框架,用于从头开始构建多步信息检索网络代理。该框架包括四个关键阶段:数据构建、轨迹采样、监督微调和强化学习。

2025-06-15 15:24:26 1288

原创 【八股消消乐】构建微服务架构体系—链路超时控制

💬技术栈:微服务架构🔍简历内容:熟悉链路超时控制策略,有一定的实践经验。🚩面试问:如果 A 调用 B,B 调用 C 的这条链路的超时时间设置为 1s,但是 B 这个服务的提供者就说自己是不可能在 1s 内返回响应的,那么该怎么办?

2025-06-15 14:58:33 1259

原创 【八股消消乐】构建微服务架构体系—实现制作库与线上库分离

[太阳]【八股消消乐】构建微服务架构体系—实现制作库与线上库分离💬技术栈:微服务架构🔍简历内容:熟悉主流隔离策略,为保证C端用户服务体验,实现制作库与线上库隔离。🚩面试问:如果采用分组隔离策略,热点的放一组,非热点的放一组,你觉得可不可行?为什么?🔨复盘:慢任务隔离、制作库与线上库分离。

2025-06-14 14:56:47 846

原创 【八股消消乐】构建微服务架构体系—限流算法优化

💬技术栈:微服务架构🔍简历内容:熟悉主流限流算法,基于Go语言实现BBR算法适应业务。为gRPC实现了各种限流算法,包括基于Redis实现的集群限流版本(开源)。🚩面试问:针对 IP 限流是一个非常常见的限流方案,那么怎么获得用户的 IP 呢?尤其是在请求经过了网关的情况下,怎么避免自己拿到的是网关的 IP?🔨复盘:限流算法、限流对象、突发流量、请求大小、计算阈值。

2025-06-12 14:08:20 1170

原创 【多智能体】基于嵌套进化算法的多代理工作流

1. 范式转变:首次明确将代理工作流程自动化表述为成本效益驱动的多目标优化问题,强调了LLM异质性和复杂性多样性在多智能体系统发展中的关键作用。2. 实用解决方案:提出了一种基于生态位进化算法的框架EvoFlow,能够在各种任务领域中自动演化出异质且复杂性自适应的代理工作流程,最小化人为干预。3. 实证评估:在七个基准测试上的广泛实验表明,EvoFlow具有多样性、高性能和经济性,优于之前的手工制作和自动化工作流程。4. 多样性演化:能够演化出从简单I/O任务到复杂多轮交互的工作流程群体。5. 性能

2025-06-11 21:16:59 1236

原创 【八股消消乐】构建微服务架构体系—降级策略全总结

[太阳]【八股消消乐】构建微服务架构体系—降级策略全总结💬技术栈:微服务架构🔍简历内容:熟悉常见降级策略,为维护C端核心业务,实现B端xx服务降级策略,最终C端xxx业务QPS提升了xx效果,保证了服务高可用。🚩面试问:(1)怎么判定一个服务要不要降级。(2)降级之后怎么恢复。🔨复盘:降级"写服务"、降级“慢路径”。

2025-06-11 17:15:56 1299

原创 【多智能体】受木偶戏启发实现多智能体协作编排

1. 动态编排:提出了一种集中式的“指挥者”(puppeteer)来动态选择和组织代理(puppets),根据任务状态的演变进行推理。这种编排方式超越了静态的协作模式,提供了灵活且可扩展的代理协调。2. 自适应进化:通过强化学习(RL)不断更新指挥者的策略,利用已完成任务的反馈来优化代理选择。随着时间的推移,指挥者学会了强调强代理轨迹并剪枝不有效的代理,使系统逐步进化到更高的效率和性能。3. 实验验证:在封闭域和开放域场景下的实验表明,该方法在提高解决方案质量的同时减少了计算开销。分析进一步揭示了指挥者

2025-06-10 22:55:15 1290

原创 【八股消消乐】构建微服务架构体系—熔断恢复抖动优化

[太阳]【八股消消乐】构建微服务架构体系—熔断恢复抖动优化💬技术栈:微服务架构🔍简历内容:针对强缓存依赖业务,独立定制熔断策略,保证了系统的高可用性。🚩面试问:(1)怎么判断微服务出现了问题?(2)怎么知道微服务恢复了?🔨复盘:指标、阈值、熔断策略、恢复。

2025-06-10 16:27:42 1060

原创 【多智能体】基于LLM自进化多学科团队医疗咨询多智能体框架

本文提出了一种新颖的多学科团队多智能体医疗咨询框架MDTeamGPT,通过残差讨论模式和共识聚合减少了信息冗余,提高了讨论效率。通过利用两个知识库,框架动态提高了整体咨询准确率,并展示了一定的泛化能力。尽管框架的整体性能在很大程度上取决于存储和利用咨询经验的基础模型的能力,但其在当前医疗咨询场景中仍表现出色。

2025-06-09 23:23:32 1130

原创 【八股消消乐】构建微服务架构体系—负载均衡算法如何优化

(1)如果公司有 Nginx 之类的网关,或者微服务网关,那么用的是什么负载均衡算法?(2)如果公司用客户端负载均衡的话,用的是什么负载均衡算法?(3)有没有出过和负载均衡相关的事故,如果有,那么是什么原因导致的,怎么解决的这个事故,它体现了负载均衡算法的什么缺陷?(4)怎么根据调用结果来调整权重,从而影响负载均衡的效果?(5)怎么利用一致性哈希负载均衡算法,来提高本地缓存命中率,缓解数据不一致性问题?

2025-06-09 12:48:54 732

原创 【具身智能体】EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks

1. 自主演化能力:EvoAgent是第一个能够自主完成各种长时任务(LH)的自主演化代理,无需人类干预。2. 持续世界模型:提出了一种新的持续世界模型(WM),能够通过闭环动态不断更新多模态经验池和世界知识。3. 模块化设计:EvoAgent包含三个模块:记忆驱动的规划器、世界模型引导的动作控制器和经验启发的反射器,每个模块都有明确的功能和相互作用。4. 两阶段课程学习机制:通过两阶段课程学习算法选择经验以进行任务自适应的世界模型更新,优化了经验选择。5. 实验验证:在Minecraft上进行的

2025-06-08 21:57:05 1379

原创 【八股消消乐】构建微服务架构体系—服务注册与发现

手段总结:(1)启动备份注册中心,而且是异构的备份中心。考虑能做到自动切换吗?还是依赖于人手动切换?(2)兜底节点:人手动配置一些固定 IP,万一注册中心崩了就用这个。这个缺陷就是 IP 需要人来维护,比如说万一某个IP 不可用了。具体流程:1、禁止所有部署(我们使用aws,部署可能会换新机器)【防止故障扩散,etcd集群在节点异常时若继续扩缩容,可能导致数据不一致或脑裂问题。】2、保护住所有的现有机器,禁止scale in和scale out【多花了很多钱】3、在经历多轮抢修依然无法启动et

2025-06-08 15:21:43 1277

原创 【八股消消乐】MySQL存储引擎InnoDB知识点汇总

(1)内存池- 客户端读取数据时,如果数据存在于缓冲池中,客户端就会直接读取缓冲池中的数据,否则再去磁盘中读取;- 对于数据库中的修改数据,首先是`修改在缓冲池中的数据`,然后`再通过 Master Thread 线程刷新到磁盘上`。- 缓冲池中`不仅缓存索引页和数据页`,还包括了 `undo 页,插入缓存、自适应哈希索引以及 InnoDB 的锁信息`等等。- InnoDB 存储引擎会`先将重做日志信息放入到缓冲区中`,然后`再刷新到重做日志文件中`。- InnoDB 允许多个缓冲池实例,从而减少

2025-06-07 16:11:13 874

原创 【八股消消乐】MySQL参数优化大汇总

[太阳]【八股消消乐】【八股消消乐】MySQL参数优化大汇总💬技术栈:MySQL🔍简历内容:熟悉MySQL体系结构,了解SQL语句处理底层,熟悉常用的MySQL参数调优手段。🚩面试问:你了解SWAP 页交换吗?InnoDB 的 IBP 的内存大小是有限的,它是如何将热点数据留在内存中,淘汰非热点数据的?

2025-06-06 21:21:16 1196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除