快手技术-CSDN博客

原创快手Java透明协程：实现零代码修改提升30%QPS

快手基于社区开源版本自研了Java17透明协程技术，实现对业务无侵入的同时，吞吐能力提升30%以上。本文将深入剖析快手协程技术的背后原理与架构演进。

2025-02-13 10:36:29 4056 3

原创快手12篇论文入选CVPR 2025！

快手12篇论文入选CVPR 2025！研究涵盖视频质量评估、多模态数据集构建与基准测试、动态3D头像重建、动态4D场景模拟、视频生成与增强技术、可控视频生成与编辑等多个方向！

2025-06-11 10:42:48 648

原创快手基础大模型团队7篇论文入选人工智能领域顶会ACL 2025

通过评估众多最先进的描述模型，我们证明了 VidCapBench 与现有视频描述评估方法相比具有卓越的稳定性和全面性，确保评测的是视频描述的质量而不是裁判模型的评价能力。值得注意的是，与现有方法相比，我们的方法利用模型辨别有害信息的能力，同时保持了较高的有用性。然而，现有的视频理解基准测试往往将这些特性分开处理，或仅仅关注特定方面，忽视了视频内容的整体性。这项评估揭示了视频时序理解中的关键挑战，例如有限的动作描述能力、不充分的多主体理解，以及对镜头运动的不敏感性，为改进视频理解模型提供了宝贵的见解。

2025-06-05 20:23:46 445

原创 6行代码节省超千万成本——记一次字段治理的“巧渡金沙江”

再优秀的系统在长期运行后也会面临“老化”和“熵增”问题，如何对抗“系统的熵增”而做功！

2025-05-29 15:15:48 488

原创 SIGGRAPH 2025 | 快手可灵团队提出3D感知的电影级文本到视频生成框架CineMaster

近期，可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试，推出了电影级文本到视频生成框架 CineMaster，允许用户在提供全局文本描述的基础上，通过提出的交互式工作流辅助用户像专业导演一样布置场景，设定目标与相机的运动，指导模型生成用户想要的视频内容。阶段1：构建3D感知的控制信号：用户可以通过交互式界面在 3D 空间中调整物体的边界框（3D Bounding Box）和摄像机位置，这个过程类似于真实的电影拍摄过程，即导演多次调整演员在场景中的排布和相机的运动。更多细节请参阅原论文。

2025-05-27 14:35:09 1116

原创破解RL训练崩溃难题，快手联合中科院、清华、南大提出多模态奖励模型R1-Reward！

基于团队在多模态强化学习的工作MM-RLHF (ICML 2025)，本文进一步提出了R1-Reward，在现有的多模态奖励模型benchmark上相比于SOTA模型有5%-15%的提升，且随着inference sampleing的数目增多还能进一步增长。多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的reward，评估阶段可以选择更好的sample结果，甚至单独作为evaluator。PPO 通过一种特殊的方式来限制每次策略更新的幅度。

2025-05-14 18:18:45 763

原创行业首创！快手开源短视频内容质量评测标准KuaiMod！

快手独立完成了首个面向短视频平台的内容质量判别基准测试构建工作，依托自身生态，打造了覆盖1000条真实平台短视频、涵盖4类主要劣质内容与15类细粒度劣质内容类型的数据集，并进一步提出了工业级自动化短视频质量判别框架KuaiMod。在CoT2Tag过程中，为了将推理过程结构化，我们为视频质量判别任务设计了专门的流程，具体来说，我们将视频质量判别分成内容提取，内容分析，中期检查，用户反馈分析和总结判断五个状态，由多模态大模型将视频内容以及Tag2CoT过程中生成的思维链整理成状态转移格式。

2025-05-13 18:37:36 792

原创业内首次! 全面复现DeepSeek-R1-Zero 数学、代码能力，训练步数仅需R1-Zero 1/10

同时，基准测试结果表明，该模型的数学和编码能力都有持续和稳定的提高，证明了我们方法的有效性。当训练数据缺乏足够的复杂性或多样性，特别是简单的问题太多，模型会倾向于保守地维持其在较容易任务中的性能，难以得到解决挑战性问题所需的复杂、深入的推理能力。这反映了数学数据激发推理能力的特征。尽管在代码基准测试中的表现有所提高，但显式推理行为的发展甚微，并且实现响应长度的显著增加被证明是困难的。与纯数学训练相比，对代码和数学问题的响应都明显较短，代码任务的解决方案通常是直接生成的，缺乏实质性的逐步推理或初步分析。

2025-04-24 15:54:35 1071

原创新加坡见！快手11篇论文入选人工智能领域顶会ICLR 2025

快手11篇论文入选人工智能领域顶会ICLR 2025

2025-04-24 15:48:29 1185

原创快手前端通用静态托管服务KFX演进历程：从崎岖土路到平坦高速

从22年开始，KFX从崎岖土路一步步走到平坦高速，下面列出了三个阶段的演化。KFX的发展历程总体来看是按照渐进式演进的方式发展，在规模化的现状下秉承着稳定性优先的策略，并结合标准化和自动化，朝着降低运维成本和提高系统维护性和观测性的方向做功。展望未来，KFX将继续持续演进，以“扩、稳、控”为核心方向，不断优化架构，提升系统稳定性和运维效率，致力于建设更加智能、高效、稳定的服务平台，打造一条真正的“高速公路”，让业务在更快、更稳、更智能的道路上前行。

2025-02-26 19:33:18 1287

原创秒开率从18%到64%，我们对小程序模拟器做了什么？

本文介绍了我们在对模拟器进行性能优化过程中，做了哪些事情。首先通过手动打点分析耗时，确定了主要优化方向，将模拟器的双进程架构改成了单进程架构。在单进程架构下，通过增加缓存复用层，进一步提升了加载速度。同时单进程架构也使得我们可以使用performance录制工具进行更精细的耗时分析，针对性的对编译产物做了按需加载优化，并通过「#sourceURL注释」解决了断点失效的问题。此外，我们也对调试器相关逻辑进行了优化，并取得不错的效果。S 全屏播放 full_screen_mv。

2025-02-26 11:29:58 1084

原创 Blaze RangePartitioning 算子Native实现全解析

RangePartitioning 的基本思想是：先对数据采样找到划分标志bounds，根据bounds将数据划分成多个近似大小的区间，然后将数据按所属区间写入对应partition，用于order by 全排序场景。对采样结果评估，记录采样不均衡的分区重新采样（某个分区数据量过多，按照sampleSizePerPartition均值采样会出现样本数少于实际应采样数量，即采样不均衡的情况）。步骤二：在native端需要再计算一次全量数据，将数据按分割点bounds写入对应的partition。

2025-02-21 16:11:47 809

原创动效资源交付的突破：Vision平台准入准出方案

本文详细介绍了Vision平台在解决动效资源交付质量问题中的思考与实践，希望能为您提供启示和支持。如果您有任何疑问或建议，欢迎随时留言讨论，我们期待您的宝贵意见。回顾本系列文章，详细分享了快手在Vision动效平台的工作成果，首篇阐述平台整体演进思路及核心能力布局，随后详细介绍渲染引擎Crab及复杂动效渲染实践、动效Code Gen技术原理、多种序列帧格式的最佳实践及其转换服务技术原理。

2025-02-21 11:07:52 655

原创你不可错过的动效转换服务！

本篇，我们将介绍动效多格式转换能力背后的技术实现。涵盖了大前端复杂Node服务系统设计，涉及FFmpeg、透明视频、APNG、Webp、Avif等多动效格式的转换和压缩、优化策略。

2025-02-13 12:05:04 986

原创多种序列帧格式的最佳实践，助你提升研发效率和用户体验！

本文，我们将探讨动效平台中的「多种序列帧格式自动转换」功能，实现设计与研发工作流的解耦，减少兼容性处理的工作量。

2025-02-13 11:45:22 1161

原创可灵视频生成可控性为什么这么好？快手又公开了四篇研究

日前，可灵团队公开了多项研究成果，这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图，降低生成“抽卡率”，可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。

2025-02-13 11:35:36 1367

原创 KwaiCoder-23B-A4B-v1：以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

KwaiCoder-23B-A4B-v1：以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

2025-01-24 14:21:04 1268

原创揭秘！如何将动效描述自动转化为动效代码

在上一篇文章中，我们详细介绍了Vision动效平台的渲染引擎——Crab，并分享在复杂动效渲染场景下积累的实践经验和精彩案例。今天，我们将揭秘如何将「动效描述翻译为动效代码」——从Lottie导出CSS/Animated代码。

2024-12-31 16:00:23 977

原创四年匠心磨砺，快手系统软件技术创新与领域演进之路

系统软件作为软件架构的基石，发挥着承上启下的关键作用。快手系统软件团队经过四年的探索与实践，成功积累了一系列创新技术与性能优化方法论，这些成果广泛涵盖Java协程、编译器优化、操作系统改进等多个关键领域。本篇作为系列文章的开篇，将为您勾勒出快手系统软件团队的整体风貌与成果概览，而后续的篇章则会针对各个重点方向逐一展开，进行深入而详尽的解析。

2024-12-31 11:22:49 1078

原创快手动效渲染引擎Crab，解锁“游戏化动效”开发新方式！

动效在设计和用户体验领域中有重要的价值，本文将详细介绍Vision动效平台的渲染引擎——Crab，并分享在复杂动效渲染场景下积累的实践经验和精彩案例。

2024-12-30 19:30:24 1264

原创快手与清华大学联合项目荣获“钱伟长中文信息处理科学技术奖”一等奖

近期，钱伟长中文信息处理科学技术奖的揭晓。快手与清华大学联合申报的“内容推荐相关技术项目”，凭借其技术创新性和先进性，荣获一等奖。

2024-12-13 11:05:21 430 1

原创商业化大前端在性能优化领域的探索与实践

页面性能是直接影响用户体验，当页面加载时间过长、交互操作不流畅时，意味着业务可能会出现转化率降低、用户流失等业务问题。本文详细介绍了快手商业化技术部针对页面性能所做的治理工作。

2024-12-13 11:02:22 5440 1

原创快手前端动效大揭秘：告别低效，vision平台来袭！

动效平台作为快手举办大型线上活动的坚实后盾，发挥着承上启下的关键作用。本篇文章将全方位地为您呈现Vision动效平台的整体架构及其演进思路，为您揭开这一强大平台的神秘面纱。

2024-12-05 16:09:24 7045 2

原创仅用5M数据超过 OpenAI？快手最新 Code Embedding 模型 OASIS(绿洲)发布

快手Kwaipilot 团队正式宣布开源 OASIS Code Embedding 模型，仅使用 5M Tokens 数据大幅领先 OpenAI。

2024-11-29 15:23:30 1057

原创重塑用户体验！快手电商智能巡检平台的实践与探索

本文将基于快手电商B端用户体验现状、探索和未来展望，探讨 AI 在提升用户体验方面的巨大潜力。

2024-11-28 15:54:26 1299

原创万字干货！手把手教你如何训练超大规模集群下的大语言模型

快手 AIP 团队总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下，在不改变模型表现的情况下，训练效率相较 SOTA 开源方案，有显著的吞吐提升。

2024-11-22 16:51:10 1047

原创是否应在 Kubernetes上运行Redis？快手这样做！

有状态服务云原生化”是一个需要慎重考虑利弊且充满挑战的过程，但对于快手来说，其价值显而易见。我们以 Redis 为起点，与 KubeBlocks 社区深度合作，低成本完成 Redis 的云原生化方案落地。未来，快手将基于以上经验，继续推动更多有状态服务，如数据库和中间件的云原生化，从而获得技术和成本的双重收益。

2024-11-01 14:52:03 5727 3

原创打造高性能在线电子表格：WebGL 渲染引擎 Kola2d 自研之路

本文主要阐述了快手 Docs 在线表格为打造极致渲染性能所做的关键优化和过程思考，希望给对WebGL渲染引擎及高性能表格感兴趣的同学一些参考。

2024-10-18 14:29:23 1392

原创 ECCV 2024 | 融合跨模态先验与扩散模型，快手处理大模型让视频画面更清晰！

快手音视频技术部联合清华大学所发表的论文被ECCV2024收录，该论文中提出了一种基于扩散模型和跨模态先验信息的图像处理算法。

2024-09-29 14:25:25 1649

原创快手B端商业化技术探索：基于LLM构建智能RAG与Agent平台

面对大模型技术浪潮，快手围绕B端商业化进行了探索与实践。本文详细阐述了基于LLM构建Agent技术平台的策略、挑战及解决方案。

2024-09-24 16:17:55 1573

原创快手自研Spark向量化引擎正式发布，性能提升200%

通过引入细粒度的FailBack机制，Blaze在翻译过程中遇到暂无Native实现的算子、单个表达式或UDF时，支持算子/单个表达式粒度的回退，能够灵活回退到Spark原生执行。Spark原生执行流程主要依赖于Java虚拟机（JVM）进行任务的执行，尽管JVM在提供跨平台、内存管理等方面有着卓越的表现，但在大数据处理场景下，尤其是涉及大规模数据计算和复杂查询时，JVM的性能开销可能会成为瓶颈。因此，我们将在之后加强Blaze开源社区的运营建设，积极构建一个开放、包容、协作的社区环境。

2024-09-14 16:36:14 6464 4

原创历经三年磨砺，快手交换机的自研创新之路

导读：快手自研交换机是2021年初开始立项，坚持软件自主可控 / 硬件生态开放的整体战略，历经三年磨砺，发布扛鼎之作『快手自研51.2T交换机』，是首家引入多元化交换芯片并在数据中心网络中规模化部署！更是首家采用国产化交换芯片并规模部署落地！

2024-09-04 11:16:48 1928

原创可图大模型再进化，实现AI试衣自由！

AI试衣，又叫做“虚拟试穿”（Virtual Try-On），是一种能让人穿上指定衣服的图像生成技术。随着GAN、Diffusion Model为代表的视觉生成模型技术发展，虚拟试穿逐步从实验室研究探索走向行业实践应用。尤其进入2024年，大模型应用进入行业新阶段，AI试衣也逐步具备了在行业中应用推广的技术可行性。在电商应用场景，无论面向广大买家、还是中小卖家，AI试衣能够将线下购买试衣过程线上化，跨越时空的距离阻隔，一键完成“试穿”效果，所见即所得。

2024-08-26 13:21:03 3318

原创快手主站前端工程化探索：Gundam 脚手架在新春除夕项目中的实践与展望

Gundam 是快手主站前端工程化脚手架，目标在于建设统一标准的工程化解决方案，提升研发效率，保障稳定性底线。本文会结合Gundam在新春除夕项目中的落地实践来聊一聊在工程化领域中碰到的问题和思考，以及未来的发展方向。

2024-08-22 16:35:52 1065

原创定格精彩瞬间！详解六自由度技术原理及应用

随着6DoF视频技术的快速发展与不断进步，在未来，能够不断逼近真实的去记录各类赛事/演艺等宝贵内容的3D视频数字资产，并且基于这些3D视频资产，提供创作者在3D场景更自由的创作空间，使得视频创作者能够最大化的发挥自身创意，从自己的独特视角和对内容的理解，创作出源源不断的精彩个性化短视频，最终实现技术创新工具为创作者最佳创意服务的初衷。比如，在快手电商生态中，特别是在商品展示和试穿试戴场景，基于六自由度技术的前期拍摄和后期渲染，模特的试穿效果可以不局限于平面，更能支持全视角运镜。X轴平移：物体左右移动。

2024-08-21 19:56:33 1407

原创巴黎同款，六自由度技术还原赛场决定性瞬间！

巴黎同款，六自由度技术还原赛场决定性瞬间！

2024-08-09 11:03:50 826

原创万字长文分享快手 Kolors 可图大模型应用实践

在 AICon 北京站活动中，快手「可图」大模型负责人李岩分享了主题为《快手「可图」文生图大模型应用实践》的演讲，Kolors 开源短短几天，在 Github 已收获 2.5k stars，在 Hugging Face 也登上了模型 Trending 榜榜首。

2024-08-02 17:54:51 1889

原创快手可灵视频生成大模型全方位测评

大模型落地的实际效果如何离不开用户的体验与感知，来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。团队本次对可灵AI的评测，是为了评估现有视频生成模型能力，探索视频生成技术在学术和现实场景里的新方向和应用潜力。

2024-07-25 16:31:28 11791 9

原创解读「快意」大模型关键技术，揭秘实践中的挑战与创新

为了提升路由模块预测的准确性和解决上述路由错误导致的expert优化不理想问题，「快意」大模型团队提出了基于训练过程中token梯度分布的自适应错误检测策略，并基于检测的结果，提出了新的路由loss优化方案，最终在多个benchmark的实验上，验证了该方法的有效性。而在预测阶段，由于只训练少量的数据，往往只能看到分段函数的第一段，为了得到最终的结果，可以通过分界点的定义预测其位置，并在分界点处，通过增加数值平滑的约束条件，推导出第二段函数的参数，进而可以得到完整的分段函数和最终的loss预测结果。

2024-07-19 10:38:10 2987

原创 CVPR2024论文解读｜对齐人类审美！MPS让图像生成评估更“懂你”

快手提出人类多元偏好模型（MPS），这是第一个评估文本生成图像的多维评分模型。MPS在3个公开数据集上表现出色，同时也在4个偏好维度上优于现有的评分方法，使其成为评估和改进文生图模型的核心指标。该模型和数据集已经公开，希望能促进文生图领域未来的发展研究。

2024-07-19 10:33:29 2488

空空如也

空空如也