自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 AIGC前沿 | LivePortrait

LivePortrait的一个关键创新是设计了紧凑的隐式关键点来有效表示一种隐式混合形状,并通过小型多层感知器(MLP)网络实现对眼睛和嘴唇动作的精细控制,这些控制模块的计算开销可以忽略不计。此外,该框架还包括一个拼接模块,用于无缝地将动画合成回原始图像空间,处理更大的图像尺寸和多人图像。

2024-07-18 23:33:54 810

原创 Diffusion 加速系列之三 | LCM

论文: LCM:https://arxiv.org/abs/2310.04378项目: https://github.com/luosiallen/latent-consistency-model现有的高分辨率的 diffusion 模型推理存在的问题:Diffusion 模型推理过程包含多步去噪的流程,这会带来极大的推理延迟。直接减少采样算法的步数,虽然会降低推理延迟,但是会极大地影响生成效果。目前的一致性模型 CM, 可以降低低分辨率的生成model 的采样步数,同时能保持生成质量。

2024-07-11 21:29:10 252

原创 LLM 模型压缩之一 | APT

论文: APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference.项目: https://github.com/ROIM1998/APT现有的大模型压缩加速存在以下问题:PEFT: 可以低成本为下游任务微调,但是整个模型的推理效率无法提升。Pruning:可以提升推理效率,但是训练成本较高。

2024-07-10 22:59:08 283

原创 自动驾驶世界模型系列 - 2 | Delphi

端到端自动驾驶技术是当前的主流,对训练数据的规模和质量有更高的要求危险、特殊场景的数据采集成本/风险过高,因而难以获得丰富的数据用以训练当前的视频生成模型不能很好地实现时空连续性保持和精确控制

2024-06-30 22:35:30 792

原创 Diffusion 加速系列之二|Consistency Models

剪枝策略:通用剪枝策略 diff-pruning,在多步 model 采用统一的剪枝策略。Guidelance 剪枝: T-Gate, Adative Guidelance。特别消耗计算资源,所以模型的加速需求是比较强烈的。Consistency Models 支持快速。CM 的加噪和去噪过程。

2024-06-16 21:18:13 437

原创 自动驾驶世界模型系列 - 1 | Vista

自动驾驶技术虽然取得了显著进步,但面对复杂且超出常规分布的驾驶情境仍存在挑战。世界模型作为一种关键工具,能够依据历史观测和替代动作预测未来状态

2024-06-02 23:05:01 1039

原创 AIGC视频生成-CameraCtrl

论文:项目:镜头视觉的控制性在视频生成中起着至关重要的作用,它允许用户创建所需的内容。然而,现有模型在精确控制相机姿态方面往往被忽视,而相机姿态是表达更深层次叙事细节的电影语言。视频生成领域需要更精确的控制方法来满足用户定制化内容的需求,尤其是相机视角和运动轨迹的控制,这对于增强视频的真实感和用户参与度至关重要。论文介绍了CameraCtrl,这是一个为文本到视频生成模型增加精确相机控制的插件式模块。它通过使用Plücker嵌入来参数化相机轨迹,并通过训练一个相机编码器来实现精确的相机控制。

2024-05-28 22:35:13 797

原创 AIGC视频生成-AnimateLCM

论文:项目: https://github.com/G-U-N/AnimateLCM视频生成扩散模型因其能够生成连贯且高保真的视频而越来越受到关注,甚至有一些产品已经可以生成以假乱真的视频,如:OpenAI的Sora,生数科技的Vidu。基于开源生态的Stable Video Diffusion也吸引了大量社区的开发者和设计师。视频内容生成需求的增长,伴随着对视频画质和视频长度的增长,这带来了巨大的计算消耗。计算成本高,生成速度慢的视频生成模型严重限制了广泛应用。

2024-05-26 20:40:55 963

原创 Diffusion 加速系列之一| T-Gate:Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Model

论文: https://arxiv.org/pdf/2404.02747v1代码: https://github.com/HaozheLiu-ST/T-GATE。

2024-05-24 23:51:00 561

原创 文生视频系列溯源-Latte: Transformer Diffusion

论文:https://arxiv.org/abs/2401.03048项目: https://github.com/Vchitect/Latte。

2024-05-18 17:44:35 903

原创 文生视频溯源系列-Animatediff

文生视频进入平常百姓家如果说align your latent开创了文生视频技术的先河,那么animatediff则是开创了文生视频应用的先河。我认为这篇工作的简洁高效和开放,直接推动了视频生成的开源社区爆炸性发展。不需要重新调整的视频生成器论文题目翻译为:“无需特定调整即可激活您的个性化文本到图像扩散模型”。AnimateDiff的核心是一个即插即用的动态模块,它在大规模数据集被训练一次后,然后无缝集成到任何源自同一基础模型的个性化文生图模型中,从而“激活”这些模型的动画生成能力。

2024-05-14 21:12:28 656

原创 文生视频溯源系列-Align Your Latent

2023年,我们见证了人工智能生成内容(AIGC)的兴起,无论是能够将文本转换为图像的Stable Diffusion技术,还是文生视频的Sora技术,它们都极大地激发了人们的创意思维,提高了工作效率。Sora技术的表现非常出色,但任何技术的发展都有其起点。我认为,文生视频技术的灵感很可能来自‘Align Your Latent’这一概念。现有大部分的视频生成模型算法,都可以在这篇文章中找到起源。

2024-05-12 20:41:04 589

原创 最新的先进多模态模型 HPT(Hyper-Pretrained Transformers)

官方博客代码 & 模型。

2024-05-09 21:07:07 669

原创 视觉自回归建模: 基于下一尺度预测的可扩展图像生成

论文: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction项目: https://var.vision类 GPT 的视觉自回归模型在标度律(Scaling Laws)等方面并未被充分探索,且其图像生成性能远远落后于扩散模型(DiT 等)作为序列的语言依赖关系是单向的,但是二维图像的依赖关系是沿两个维度方向的,直接把语言自回归模型直接用于图像忽略了这种性质人类的视觉感知过程通常是由全局到局部细节

2024-05-07 22:37:11 1121

原创 LMDrive: 基于大语言模型的闭环端到端自动驾驶

论文: LMDrive: Closed-Loop End-to-End Driving with Large Language Models项目: https://hao-shao.com/projects/lmdrive.html现有的自动驾驶方法存在以下问题:适用场景局限:对常见的简单场景有效,但在长尾事件和城市复杂场景时存在挑战,易导致严重事故交互理解局限:依赖于有限格式的输入(如传感器数据和导航航点),缺乏理解语言及与人类互动的能力闭环评估缺失:先前研究大多针对特定模块进行开环评估,缺乏闭环评测(如

2024-05-06 21:28:44 1166

原创 CVPR2024 DeepCache:diffusion 无需训练即可加速方法

无需要训练即可加速 diffusion model,效果显著。

2024-05-04 20:07:21 478

原创 AMD UPDP:模型压缩新思路,扩展模型压缩边界

模型压缩:在深度上做剪枝,在 CNN 和 Vision Transformer 双 SOTA

2024-05-03 23:10:19 650

原创 Sparse Laneformer 分享和思考

车道线表示方法:通过固定点数(x,y)如72点来描述车道线,所有车道线线的 y 都是 0-71,所以只需要通过72个 x 值即可以描述一条车道线。

2024-05-03 00:02:33 612

原创 CVPR2022 |BEV感知(自动驾驶感知新范式)| Cross-view Transformers for real-time Map-view Semantic Segmentation

Cross-view transformer BEV 内容导航文章信息内容摘要论文方法简介实验数据论文总结和展望文章信息文章链接: https://arxiv.org/abs/2205.02833代码:https://github.com/bradyz/cross_view_transformers内容摘要不同于之前的 RepVGG 和 DBB 训练多分枝和测试单分枝(重参数聚合多分枝 conv op 为单分支 conv,有效减少测试时间),文章提出来一种全新的在线重参数方法,在训练过程中也

2022-05-18 23:32:35 1682

原创 CVPR2022 | OREPA(Online Convolutional Re-parameterization)超越 RepVGG 的在线重参数方法

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2022-05-14 23:51:06 599

转载 Opencv之Mat操作(重要)

1.Mat基础在计算机内存中,数字图像是已矩阵的形式保存的。OpenCV2中,数据结构Mat是保存图像像素信息的矩阵,它主要包含两部分:矩阵头和一个指向像素数据的矩阵指针。矩阵头主要包含,矩阵尺寸、存储方法、存储地址和引用次数等。矩阵头的大小是一个常数,不会随着图像的大小而改变,但是保存图像像素数据的矩阵则会随着图像的大小而改变,通常数据量会很大,比矩阵头大几个数量级。这样

2016-09-30 15:57:55 354

转载 java.nio.ByteBuffer的flip、rewind和compact几个方法的区分使用 (转载)

java.nio.ByteBuffer-------------------------------Capacity 缓冲区最大容量Limit 当前最大使用量,或者说是有效数据的EOF位置。Position 指向当前位置的指针-----------------------------------假设一个缓冲区容量是10,开始指针指向0,即position=0。然后写入6

2015-04-11 10:06:45 1357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除