AIGC
文章平均质量分 84
深入剖析AIGC的源码及论文
开始学AI
硕士生,研究方向无人机遥感图像处理,红外图像处理。不定时记录自己的学习日常,开源相关资料。关注一起学习吧!
展开
-
关于Resume训练 精度对齐的思考
如果想要精度对齐,需要Resume 正确的 state_dict,正确的学习率调度器,正确的恢复优化器的状态,同时还需要设置相同的随机种子。原创 2024-06-20 14:54:09 · 122 阅读 · 0 评论 -
ZeRO-3、模型并行、流水线并行适用情况
ZeRO-3适用于参数量大,需要显存优化的情况。模型并行适用于计算量大,但每层参数量相对较少的情况。流水线并行适用于计算量大且需要高效利用多 GPU 资源的情况。这三种方法可以根据具体的模型和训练需求进行选择和组合使用,以达到最优的显存利用和计算效率。原创 2024-05-23 17:29:46 · 284 阅读 · 0 评论 -
【唇形同步】Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
嘴唇同步的任务(唇同步)寻求将人脸的嘴唇与不同的音频相匹配。它在电影行业以及创建虚拟化身和视频会议中有各种应用。这是一个具有挑战性的问题,因为人们需要同时引入详细、逼真的嘴唇动作,同时保持身份、姿势、情绪和图像质量。许多试图解决这个问题的先前方法由于缺乏完整的上下文信息而遭受图像质量下降。在本文中,我们提出了Diff2Lip,这是一种基于音频条件扩散的模型,它能够在保持这些质量的同时在野外进行嘴唇同步。我们在Voxceleb2上训练我们的模型,这是一个视频数据集,包含狂野的会说话的人脸视频。原创 2024-05-10 16:50:26 · 552 阅读 · 0 评论 -
【文生视频】InternVid: A Large-scale Video-Text Dataset forMultimodal Understanding and Generation
我们的核心贡献是开发一种可扩展的方法,用大型语言模型(LLM)自主构建高质量的视频文本数据集,提供视频文本表示学习模型ViCLIP。目前的研究依赖于HowTo100M[2]、HD-VILA[3]和YTTemporal[4,5]等数据集,这些数据集的文本是使用自动语音识别(ASR)生成的。尽管规模很大,但这些数据集在视频和相应的文本描述之间的语义相关性往往很低[2-5]。实证研究表明,改善这种相关性(例如,将视频与字幕对齐以提高其匹配性)显著有利于视频检索和视频问答等下游任务[6]。文本视频对齐非常重要。We原创 2024-04-25 17:38:01 · 1129 阅读 · 2 评论