- 博客(114)
- 收藏
- 关注
原创 生成式强化学习在广告自动出价场景的技术实践
在实时竞价(RTB)广告系统中,广告出价模块作为连接广告主需求与流量匹配的核心枢纽,需要将广告主的营销目标(如转化率、ROI)转化为动态竞价决策。作为竞价机制的中枢神经,广告出价不仅直接影响广告主的投放效果,也是广告排序分的关键组成模块,进而影响平台侧的流量分配效率。广告出价的面临的核心挑战可以概括为以下三点:1. 既要花钱,又要省着花:广告主既需控制单日花费不超预算,又需尽可能降低每次转化(如购买、下载等)的成本。
2025-09-24 11:34:42
4716
1
转载 KAT-Coder-Pro V2:玩转龙虾,吃透美学
在 AI Coding 的真实落地场景中,以 OpenClaw 为代表的 AI Agent 框架持续高频迭代,不断引入新工具与新协议,这对模型的脚手架泛化能力提出了巨大挑战。工具调用失败、多步任务中断、指令理解偏差,是模型在实际使用中频繁暴露的问题,而在高频使用场景下,这些问题会被成倍放大,直接影响用户体验。模型能力的真正边界,不只是代码生成质量是否过关,更在于面对工具不断扩展、任务链路持续拉长的复杂环境时,能否在长程轨迹中始终准确理解用户意图,并在不同 Agent 框架下保持稳定、一致的表现。
2026-03-27 16:02:47
89
原创 AAAI 2026|基于思维链与强化学习的可解释多模态广告审核护栏
你是否刷到过这样的短视频广告:如何在家躺着日赚几百块”、“通过手相预测未来姻缘”。在快手商业化广告素材审核过程中,快手商业化生态与体验团队每天也会拦截大量的风险素材。为解决这一痛点,快手商业生态与体验算法团队提出了BLM-Guard,这是一个专为高风险短视频广告设计的可解释性多模态审核框架。✨核心亮点:🧠【像审核员一样思考】📌【动态策略自适应】📊 【动态策略自适应】
2026-01-29 11:29:27
823
原创 效果&性能双突破!快手 OneSug 端到端生成式框架入选 AAAI 2026
在电商平台搜索“苹果”,系统会推荐“水果”还是“手机”?短短一个词,背后承载了完全不同的购买意图。而推荐是否精准,直接影响用户的搜索体验,也影响平台的转化效率。基于上述问题,快手在业界首次提出端到端的生成式统一查询推荐框架——OneSug。📚 方法简介:OneSug 的三大核心模块「Prefix-Query表征增强模块」「统一的Enc-Dec生成架构」「用户行为偏好对齐(RWR)」
2026-01-22 14:14:29
700
原创 AAAI 2026|快手LGSID助力业务GMV实现两位数增长:从地理可达,到兴趣匹配
你是否有过这样的经历:刷到一家价格合适、评价不错的餐厅,却发现门店远在城市另一端,交通成本过高,只能无奈划走。对于生活服务类内容来说,“感兴趣”只是开始,“方便到达”才是决定下单的关键。正因如此,生活服务推荐与传统内容推荐存在本质差异——用户的消费决策天然受到地理位置的强约束。只有同时满足“离得近”和“感兴趣”,推荐结果才有可能转化为线下到店与交易。然而,这一看似简单的需求却对推荐系统提出了极高挑战:系统不仅需要理解用户兴趣偏好,还要精准感知用户所处位置,并感知用户与内容的空间关系。
2026-01-21 14:45:56
703
原创 双栈一致、业务驱动,揭秘快手KwaiDesign企业级UI组件库背后的技术实践
不同业务视觉不统一、Vue 和 React 组件不能复用、跨团队沟通成本拉满…多业务线前端 / 设计真的太容易陷入 “重复劳动” 陷阱了😫我们决定从真实场景出发,构建一套完全贴合快手需求、并能伴随业务共同演进的设计与研发体系——KwaiDesign 由此诞生!
2026-01-15 10:35:03
605
原创 打破信息茧房!快手搜索多视角正样本增强引擎 CroPS 入选 AAAI 2026 Oral
快手搜索团队提出全新的检索数据引擎 CroPS。该方法通过引入用户换 Query 数据、推荐流数据以及大模型生成的世界知识,多视角丰富了正样本信号,并结合层次化标签分配(HLA)策略和 H-InfoNCE 损失函数,实现了对相关性的精细化建模,该论文已被人工智能顶级会议 AAAI 2026 Oral 接收!🧩 方法与思路✅多视角正样本增强引擎 CroPS✅层次化标签分配 (HLA)✅H-InfoNCE 损失函数
2026-01-13 10:54:05
646
原创 AAAI 2026|全面发力!快手3篇论文获Oral,12篇论文入选!
快手有12篇论文入选AAAI 2026,研究成果涵盖搜索与推荐系统、多镜头视频生成、多模态内容理解与评估、生成式模型基础技术、视频大语言模型、实验设计以及LLM隐空间推理等方向。
2026-01-12 12:06:56
1214
原创 入围AA总榜Top10,Non-Reasoning Model榜单第一!KAT-Coder-Pro V1 新版本踏浪归来!
快手 Agentic Coding 模型 KAT-Coder-Pro V1 重磅升级!在 Artificial Analysis Intelligence Index 官方评测中,该模型以64分超越 Claude 4.5 Sonnet,综合模型能力入围总榜Top 10;在 Non-Reasoning Model 榜单中以绝对优势斩获第一名。模型目前仍在限时免费中,欢迎试用。
2025-12-16 10:27:25
684
原创 快手可图联合清华大学提出VQRAE, 首个能同时产生连续表征和离散表征的统一tokenizer!
快手可图联合清华提出的VQRAE技术,直接打造了首个能同时产生连续+离散表征的统一tokenizer,彻底打破两者的“语言隔阂”!核心亮点速码:✅ 单编码器架构超高效✅ 业内首个高维全利用率码本✅ 两阶段训练平衡满分
2025-12-15 11:05:34
778
原创 快手可图与华中科技大学提出VGT, 让任意 VLM 摇身一变成为 SOTA 图像生成模型!
谁说看懂世界的AI不会创造世界?快手可图团队联合华中科技大学搞出的VGT技术,直接把这个潜力激活了——不用从头训练大模型,只要简单“专项微调”,Qwen2.5-VL、InternVL3这些“理解派”AI,立马就能变身顶尖生图高手!
2025-12-11 10:46:19
695
原创 可灵团队提出OmniSync:无限时长、强id保持、遮挡情况下强鲁棒性,视频口型编辑新突破!
换配音总对口型失败、数字人直播几小时就脸崩、遮挡场景下编辑口型直接崩效果?快手 OmniSync 直接用三大创新把这些痛点全攻克,重新定义了口型编辑的行业标准!✅ 无 mask 训练范式,彻底解耦口型与身份✅ 流匹配推理,实现无限时长不漂移✅ 动态时空 CFG,精准又不毁纹理
2025-12-10 10:55:41
1040
原创 “对齐”驱动增长:快手Align³GR广告生成式推荐大模型
短视频广告推荐中常存在用户真实需求与广告内容、历史点击行为脱节的 “错位” 问题。快手推出的 Align³GR 广告生成式推荐大模型,以 “对齐” 技术为核心破解该难题,通过从基础对齐工具 DAS 到进阶大模型 Align³GR 的两步关键进化,让推荐系统同时读懂广告内容、把握用户真实偏好并契合平台与商家诉求,最终实现用户看得顺眼、商家获得效果、平台提升收益的三方共赢。
2025-12-09 13:24:02
1283
原创 NeurIPS 2025 | 快手联合南开提出情感树推理新方法,显著提升多模态大模型情感理解能力
你是否希望AI不仅能“看见”画面,更能“读懂”人心?传统方法在分析视频情感时,往往只能进行基础分类,难以理解复杂情感的动态变化。针对这一挑战,快手可灵团队与南开大学提出了创新解决方案——VidEmo,让AI首次实现“情智兼备”的情感推理。🧠 核心创新:像人一样“分步推理”研究团队提出了一个基于情感线索引导的树状推理框架。VidEmo不再试图一步到位,而是模拟人类的认知过程,分三个阶段层层递进:🌟感知基础属性🌟分析表情信号🌟综合推断高层情感
2025-12-05 16:16:27
780
原创 NeurIPS 2025 | 让扩散模型“评价”自己:中科院与快手可灵团队提出隐式奖励建模新范式
用 AI 画图总遇到 “差口气” 的情况 —— 明明按指令描述了,生成的图却不符合审美,要么颜色奇怪,要么细节拉胯… 原来问题出在 “偏好优化” 上!中科院自动化所和快手可灵团队的新研究,用 LRM+LPO 直接解决了传统方法的坑,目前该论文已被NeurIPS 2025 录用。
2025-12-04 09:34:42
1034
原创 让搜索更“懂你”:快手自研UniDex与UniSearch实现新一代工业级搜索
为了让搜索能像推荐一样“懂用户”、甚至“懂视频本身”,快手团队开始尝试一条新路径:用更智能的语义表征替代传统 Term,用能理解、能生成的模型重构整个搜索链路。在这样的探索中,新一代工业级搜索体系 UniDex 与 UniSearch 逐步成形。
2025-12-03 17:19:47
963
原创 能看清,更要看懂:MME-VideoOCR全面评估MLLM视频OCR能力
看视频想提取文字时,AI 总掉链子 —— 运动模糊认不清字幕,弹幕叠着文字就懵,跨帧找个时间点的文字更是难上加难…快手可灵团队联合北京大学、清华大学、中科院自动化所等单位提出了 MME-VideoOCR,该 Benchmark 致力于系统评估并推动 MLLM 在视频 OCR 中的感知、理解和推理能力,目前该论文已被NeurIPS 2025会议录用。💡这基准到底有多能打?▪️ 10 大类 25 个子任务▪️ 1464 个视频 + 2000 条标注▪️ 测遍 18 个主流模型
2025-12-02 11:01:37
855
原创 视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
快手最新开源的多模态大模型Keye-VL-671B-A37B,这次真的重新定义了“视觉理解”!🎯三大核心突破:✅ 超强视觉感知不仅能看清细节,还能推理逻辑,比人类判断更可靠✅ 精准视频理解能捕捉视频中每个镜头变化,识别场景细节✅ 复杂推理能力在数学、图表、逻辑推理任务中表现惊艳,思考更深入
2025-11-28 17:34:25
714
原创 当推荐系统真正“懂你”:快手团队在NeurIPS 2025提出新成果TagCF
为什么推荐系统需要学会理解“人”的角色?快手 TagCF 给出答案。快手消费策略算法团队联合快手基础大模型与应用部及武汉大学,提出了 TagCF 框架,让推荐系统从“知其然”迈向“知其所以然”。📚 【两个新任务】 · 用户角色识别(User Role Identification):建模一个用户的 特征、个性、社会角色、需求;· 用户行为逻辑建模(Behavioral Logic Modeling):建模 user role 和 item topic之间的逻辑关联图
2025-11-28 10:17:46
1280
原创 快手&南大发布代码智能“指南针”,重新定义AI编程能力评估体系
快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 合作推出 SWE-Compass ——一个涵盖8大任务类型、8大编程场景、10种编程语言的代码智能统一评估框架,它包含2000个高质量实例,在任务类别、编程场景和语言方面实现了良好的平衡,为评估大型语言模型在实际软件工程任务中的能力提供了一个严格且具有代表性的评估框架。
2025-11-27 09:40:59
1104
原创 NeurIPS 2025 | 可灵团队提出Flow-GRPO, 首次将在线强化学习引入流匹配生成模型
尽管流匹配模型已成为图像与视频生成的基石,但在处理复杂场景与文本渲染时仍面临挑战。为此,港中文MMLab、清华大学与快手可灵团队联合提出了Flow-GRPO,开创性地将在线强化学习引入流匹配模型训练,破解复杂场景生成难题。核心实验效果:✅ 复杂组合生成能力大幅提升✅ 文字渲染精准无误✅ 更懂人类偏好✅ 有效抑制奖励黑客行为
2025-11-26 15:25:19
839
原创 NeurIPS 2025 | 从数据微调到反馈优化!可灵团队提出基于人类反馈的视频生成训练范式
打破视频生成天花板!香港中文大学、清华大学和快手可灵团队联合发表论文《Improving Video Generation with Human Feedback》, 提出了面向基于流匹配的现代视频生成模型的综合对齐管线,让模型真正学会“什么是好视频”。该管线包含四个核心组件:1. 大规模人类偏好数据集2. 视频奖励模型VideoReward3. 评测基准VideoGen-RewardBench4. 视频偏好对齐算法
2025-11-25 10:21:35
642
原创 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。文章亮点:从低时延模式到双向模式的扩展 创新的双向智能视频编码框架
2025-11-24 10:31:55
753
原创 闪耀NeurIPS 2025!快手13篇论文入选,Spotlight 成果跻身前三!
13篇入选,1篇Spolight!快手在 NeurIPS 2025 战绩亮眼!这些论文涵盖视频生成与优化、多模态大模型评估与鲁棒性研究、视频压缩与表征、情感计算与跨模态同步、以及实时视频流分析与应用等方向。论文链接和项目地址都整理好放至文中啦,快来点击阅读吧~
2025-11-19 10:42:30
1246
原创 快手可灵提出IMBA Loss,无需新数据,几行代码大幅提升生成模型概念组合成功率
你是否有许多天马行空、奇思妙想的创意,因为生成模型的概念组合能力有限而无法实现?快手可灵团队最新提出的IMBA Loss帮助你美梦成真。
2025-11-14 19:11:08
960
原创 快手统一特征抽取框架KaiFG,用Python的优雅,唤醒C++般的性能狂潮!
当算法工程师困于异构特征框架的碎片化泥潭,当创新灵感被30分钟编译枷锁牢牢禁锢 —— 快手算法引擎团队自研的「特征工程超导体」KaiFG,破局而来!这套框架将赋能更多业务团队,让创新不再受技术枷锁所困,让每一行代码都能释放极致效能。
2025-11-13 11:14:43
894
原创 从“拦路虎”到“修路工”:基于AhaEdit的广告素材修复
“素材又被拒了,到底哪里不行?”,你知道有问题,却不知道问题在哪?别着急!快手AhaEdit革新广告审核:从风险拦截到自动修复,让违规广告分钟级“自愈”。✨“一键过审”正在成为现实如今的AhaEdit已经能够支持多种模态的素材修复:• 文本编辑:精准删除或替换违规词汇• 图像编辑:文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换• 视频编辑:擦除/替换违规元素
2025-11-07 14:16:41
984
原创 快手&南大联合发布自适应推理框架HiPO,突破LLM“过度思考”困局
别想太多,其实AI可以又简单又轻松!HiPO框架在简单问题上秒回,在复杂问题上深思,实现效率与准确率的双赢
2025-11-06 10:51:23
649
原创 端到端短视频多目标排序机制框架EMER详解
近日,快手正式发布全新推出的端到端多目标融合排序框架——EMER。该框架以其“会比较、自进化”的核心能力,重构了传统依赖人工经验公式的推荐模式,在快手主站App与极速版应用中实现了七日留存提升0.13%~0.2%、用户停留时长提升1.2%~1.4% 的显著效果,为行业推荐系统的智能化升级提供了可落地的解决方案。
2025-10-31 16:15:34
8117
原创 KwaiKAT AI开发挑战赛火热开启!赢取iPhone 17等豪华大奖!
借助 KAT-Coder-Pro V1 模型强大的编程能力开发一个原创项目,释放你的创造力,赢取iPhone17、大疆Pocket3、Switch等丰厚大奖!
2025-10-25 23:46:47
282
原创 兼顾效率和性能!快手低代码平台在大型活动中的技术实践!
本文以CNY内容会场为例,系统阐述了积木平台在架构设计、性能优化与系统集成等方面的技术实践与落地成果。通过体系化的技术架构,积木平台有效平衡了高效搭建与业务创新之间的关系,通过SSG静态生成、组件分级渲染与异步渲染等关键技术,解决了300+组件加载的页面性能瓶颈,实现了大规模组件场景下的流畅体验。单一技术问题的解决方案往往并不复杂,但当其置于低代码平台这一复杂架构背景下时,技术挑战呈指数级上升。期望本文所分享的经验与思路,能为面临类似问题的技术团队提供有益的参考。
2025-09-29 14:10:12
764
原创 可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破!
MIDAS在双边对话、多语言生成等任务中,MIDAS均实现实时生成(<500ms延迟), 并且扩散头仅需4步去噪,在效率与质量间取得最佳平衡,支持长达几分钟的连续生成,且质量衰减显著低于基线方法。这种设计既保证了生成的连贯性,也大幅降低了计算延迟,适合实时流式生成。为训练模型,研究者构建了一个约2万小时的大规模对话数据集,涵盖单人、双人对话场景,涵盖多语言、多风格内容,为模型提供了丰富的语境与交互样本。团队表示,未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力,并推进系统在真实产品环境中的部署。
2025-09-24 17:22:49
734
原创 可灵AI数字人来了!快手重磅发布Kling-Avatar,面向多模态指令理解与控制的数字人长视频生成新范式
从“对口型”迈向“会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。
2025-09-19 15:21:06
1103
原创 快手提出端到端生成式搜索框架OneSearch,让搜索“一步到位”!
快手提出业界首个工业级部署的电商搜索端到端生成式框架——OneSearch,OneSearch框架集三大创新于一身:关键词增强层次量化编码(KHQE)模块、多视角用户行为序列注入策略以及偏好感知奖励系统(PARS)。目前,该系统已在快手多个电商搜索场景中成功部署,每日服务数百万用户,产生数千万页面浏览量。
2025-09-19 11:28:21
10618
原创 多模态大模型Keye-VL-1.5发布!视频理解能力更强!
快手正式发布了多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。
2025-09-08 17:32:00
4148
原创 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型!
为此,一种更合理的方式是从历史上下文中动态检索少量相关帧,作为条件引导当前帧的生成,我们将其称为“记忆检索”。如上图(a)所示,Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的,其中,所有历史生成的视频帧作为context,它们被视为记忆力的载体。在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。
2025-09-03 15:09:31
1010
原创 快手发布SeamlessFlow框架:完全解耦Trainer与Agent,时空复用实现无空泡的工业级RL训练!
与Areal等其他框架通过引入落后多步off-polcy数据的做法不同,SeamlessFlow的时空复用pipeline,将off-polcy数据的落后程度控制在了1步以内,在实现无空泡的同时,尽可能减小了其对RL算法侧的负面影响。在这种情况下,如何设计RL系统,以保证这些在线产生的数据能无缝高效地进入RL的训练管线中、以及在不影响线上产品的情况下,最大化利用异构的计算资源,成为了一个极具挑战的问题。从智能体的视角看,它只是收到了一个稍长的等待时间,完全感知不到背后发生的模型更新或资源调度。
2025-08-29 16:21:17
2707
1
原创 不止于“think with image”!快手Kwai Keye发布Thyme,赋予模型超越图像思考的超能力!
然而,对于更困难的任务,如监控与自动驾驶,在这些任务上Qwen-2.5-VL-7B的感知能力较弱时,Thyme的感知和推理任务的提升超过了25%,尤其是在推理任务中,提升更为显著。首先,由于两轮对话数据的特殊性,出现了一些意想不到的模式:模型在第一轮倾向于生成错误或不充分的分析和代码,然后在第二轮进行修正,使得第一轮基本上无效。具体来说,为文本使用较高的温度以鼓励探索和创造性,为代码使用极低的温度(0.0)以确保生成代码的精确性和可执行性,巧妙地平衡了推理的灵活性和代码的稳定性。
2025-08-29 15:27:14
1247
原创 快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手Klear-Reasoner(基于 Qwen3-8B-Base)发布,登顶 8B 模型榜首! 核心突破: 首创 GPPO 算法——强化学习新方法,训练稳+探索强!数学与代码能力超强:AIME2024 90.5%、AIME2025 83.2%,横扫同规模模型!全流程 pipeline 开源,诚意拉满,复现无忧!
2025-08-19 15:45:56
10806
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅