• 博客(23)
  • 收藏
  • 关注

原创 万字长文分享快手 Kolors 可图大模型应用实践

在 AICon 北京站活动中,快手「可图」大模型负责人李岩分享了主题为《快手「可图」文生图大模型应用实践》的演讲,Kolors 开源短短几天,在 Github 已收获 2.5k stars,在 Hugging Face 也登上了模型 Trending 榜榜首。

2024-08-02 17:54:51 321

原创 快手可灵视频生成大模型全方位测评

大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。

2024-07-25 16:31:28 4792 7

原创 解读「快意」大模型关键技术,揭秘实践中的挑战与创新

为了提升路由模块预测的准确性和解决上述路由错误导致的expert优化不理想问题,「快意」大模型团队提出了基于训练过程中token梯度分布的自适应错误检测策略,并基于检测的结果,提出了新的路由loss优化方案,最终在多个benchmark的实验上,验证了该方法的有效性。而在预测阶段,由于只训练少量的数据,往往只能看到分段函数的第一段,为了得到最终的结果,可以通过分界点的定义预测其位置,并在分界点处,通过增加数值平滑的约束条件,推导出第二段函数的参数,进而可以得到完整的分段函数和最终的loss预测结果。

2024-07-19 10:38:10 2194

原创 CVPR2024论文解读|对齐人类审美!MPS让图像生成评估更“懂你”

快手提出人类多元偏好模型(MPS),这是第一个评估文本生成图像的多维评分模型。MPS在3个公开数据集上表现出色,同时也在4个偏好维度上优于现有的评分方法,使其成为评估和改进文生图模型的核心指标。该模型和数据集已经公开,希望能促进文生图领域未来的发展研究。

2024-07-19 10:33:29 1119

原创 快手开源LivePortrait,实现表情姿态极速迁移,GitHub 6.5K Star

近日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

2024-07-17 14:41:50 2248 2

原创 ATC 2024 | 快手开源大模型长序列训练加速技术,性能大幅超越 SOTA 方案

在深度学习领域,训练大型语言模型(LLMs)一直是一项极具挑战性的任务,它不仅需要巨大的计算资源,同时对内存的消耗也非常巨大。近期,快手大模型团队提出了创新的方法,包括感知流水并行的激活值卸载以及计算-内存均衡的检查点策略,该方法旨在无损地加速大型语言模型的训练过程。目前论文入选ATC 2024大会,代码已开源。

2024-07-12 11:24:18 972

原创 快手可图大模型Kolors全面开源——一个更懂中文的文生图大模型

快手可图大模型Kolors全面开源!支持中英文双语,文本输入最高可至256字符,具备英文和中文文字生成能力,生成效果比肩Midjourney-v6水平!

2024-07-12 11:13:46 1516

原创 可灵重大升级!新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频,可以生成高达1080p分辨率30fps的视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。快手视频生成大模型“可灵”(Kling),作为全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。在视频中,厨师握刀的手法与日常生活中的场景别无二致,在切菜的过程中还有短暂的停顿和姿势的调整,节奏变化使其更符合真实世界中日常做饭的行为习惯。

2024-07-12 10:41:05 935 1

原创 快手Vision Pro版实测体验!沉浸模式,刷视频绝了!

沉浸模式、环绕弹幕、手势3D点赞动效……这些特色功能在快手vp版app是怎么做到的?

2024-07-03 19:01:41 779

原创 快手开源 I2V-Adapter,即插即用、轻量级模块让静态图像秒变动态视频

快手开源图像生成视频技术I2V-Adapter。I2V-Adapter是基于Stable Diffusion的文生视频扩散模型的轻量级适配模块,该模块能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。

2024-07-03 18:54:18 838

原创 CVPR 2024 | 快手8篇论文入选计算机视觉顶会

此外,为进一步推动VQE领域的研究,我们构建了一个全新的压缩视频编码先验数据集VCP,包含300个原始视频和多种HEVC编码配置下的编码先验(如运动矢量、预测帧、残差帧等),有效弥补了现有数据集中编码先验缺失的空白。在三个评估数据集和四个偏好维度上,MPS的表现优于现有的评分方法,使其成为评估和改进文本生成图像的有前景的指标。基于这一视角,我们提出了测试时能量适应(TEA),它将训练好的分类器转变为基于能量的模型,并使其模型内建分布与测试数据分布对齐,增强模型对测试分布的感知能力,从而提高整体泛化能力。

2024-06-24 22:02:03 895

原创 连续两年入选CVPR !快手KVQ,大模型加持的视频质量评价“黄金眼”

KVQ(Kuaishou VisualQuality),是一套快手自研的图像/视频质量评估方法。它基于海量的视频数据+AI大模型训练而成,是针对视频质量的科学量化的衡量手段。

2024-06-18 17:54:14 866

原创 深度解析:基于Pixi渲染引擎打造沉浸式「滑雪竞技」小游戏!

本文将从前端开发的角度,重点关注滑雪游戏部分在开发过程中遇到的技术挑战以及相应的解决策略。在这个环节中,技术团队面临了众多难题,包括如何确保游戏在多种设备上的流畅运行、如何优化Pixi渲染引擎以提供更为逼真的滑雪体验、以及如何实现与后端服务器的稳定通信等……

2024-06-17 18:30:31 616

原创 快手自研视频生成大模型「可灵」来啦!

快手自研视频生成大模型——可灵(Kling),支持生成长达2分钟的30fps的超长视频,画面流畅自然,更符合运动规律,更具想象力,让每一部作品都充满了无限可能!

2024-06-17 18:15:37 1139

原创 K歌技术大揭秘:从“清唱找调”到“智能修音”,如何让歌声自然飞扬、声动四方?

详细解读回森团队如何在整个K歌流程中发掘创新点,为用户创造实实在在的价值,从而构筑起坚实的根基。

2024-06-17 18:00:10 1044

原创 快手4篇论文入选人工智能领域顶会ACL 2024

快手四篇论文入选ACL,研究内容涵盖快意大模型在多轮对话、复杂推理、RLHF等领域的深入探索与最新进展,以及MoE在搜索技术上的创新应用。

2024-05-28 20:45:21 1154

原创 K歌还能这样玩?详解回森“音乐弹幕”功能背后的技术实践!

在音乐的海洋里,K歌总能带给我们无尽的欢乐与惊喜。而如今,一种全新的K歌体验正悄然兴起——与创作者合唱,一同在音乐的舞台上尽情挥洒热情。本篇文章将带你深入探索回森这一创新玩法背后的技术秘密,揭秘音乐弹幕的神奇功能是如何实现的。

2024-05-28 20:43:19 1028

原创 音乐弹幕?智能修音?回森K歌社区的创新玩法?(上)

回森是快手精心孵化并运营的App,上线三年以来,在K歌领域崭露头角,吸引了众多用户。然而回森的成长之路也历经了诸多挑战与困境,但正是这些经历,使其积累了丰富的经验。本系列文章将带您回顾回森的成长历程、踩过的坑以及创新玩法……

2024-05-21 16:42:42 976

原创 半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践!

AI小快是快手基于自研的快意大模型推出了官方消费娱乐场景的智能助理。AI小快具备视频问答、知识问答等功能,并且具备显著的人格化特征,当被用户@后,会和用户进行趣味化的对话互动。上线半年来涨粉1000万!它如何做到的?本文带你回顾大模型技术的发展,并为你揭秘AI小快背后的技术实践……

2024-05-21 16:41:07 1015

原创 快手闪耀VALSE2024:揭秘视频生成技术,展示文生图大模型

近日,快手在VALSE2024上分享了其在视频生成、图像生成等前沿技术领域的最新研究成果和应用实践。👉🏻关注快手技术团队微信公众号,回复关键词「VALSE」,获取王鑫涛老师演讲《视频生成的初探及可控性研究》PPT下载链接[呲牙]

2024-05-15 14:33:54 818

原创 快手工程架构治理大揭秘:告别崩溃,提效神器来袭!

本文只是对架构治理过程中存在的问题以及庞大的工作量做了分析和工具建设,对于增量问题的控制,还需要建设一系列的准则和设计成熟的工程架构。

2024-05-15 14:28:19 974

原创 AAAI 2024 | 基于由粗到细的视觉表征实现的高效匹配且兼顾性能的跨模态检索

Intra-feature Pearson 约束损失是在通道维度,对于一个 batch 中视频特征的通道与文本特征的通道计算 Pearson 距离,从而实现了松弛的跨模态的通道 Correlation Reduction,文本特征的第 i 个通道与视频特征的第 i 个通道保持强的相关性,削弱但不完全消除与其他 j(j≠i)通道的相关性。为了在文本到视频检索的效果与效率之间做出更好的权衡,本文提出了一种新方法,即 EERCF,实现了从粗到细的自适应视觉表示学习,并设计了先召回再重排的检索流程。

2024-05-15 14:16:48 793

原创 《将博客搬至CSDN》

将博客搬至CSDN》

2024-05-15 11:43:49 302

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除