OmniHuman-1:Rethinking the Scaling-Up of One-StageConditioned Human Animation Model重新思考单阶段条件人体动画模型扩展

这篇文章提出了OmniHuman,一个基于**扩散Transformer(DiT)**的框架,旨在解决现有端到端人体动画模型在数据扩展和生成多样性方面的局限性。以下是文章的主要内容总结:

  1. 问题背景

    • 现有的端到端人体动画模型(如音频驱动的说话人生成)在扩展性方面存在不足,难以像通用视频生成模型那样利用大规模数据进行训练。

    • 现有方法通常依赖于高度过滤的数据集,限制了其适用场景,无法处理复杂的运动、人机交互和多样化的输入。

  2. 核心贡献

    • 提出了OmniHuman,一个基于扩散Transformer的框架,通过混合多种与运动相关的条件(如文本、音频、姿势)来扩展训练数据。

    • 引入了全条件训练策略,遵循两个原则:

      1. 更强条件的任务可以利用较弱条件的任务及其数据,实现数据扩展。

      2. 条件越强,训练比例应越低,以避免过拟合。

    • OmniHuman支持多种输入模态(音频、视频、文本等),能够生成高度逼真的人体视频,涵盖面部特写、半身、全身等多种场景,并支持复杂的运动和人机交互。

  3. 技术细节

    • 模型基于预训练的DiT架构,通过多阶段训练逐步引入文本、音频和姿势条件。

    • 使用3DVAE进行视频潜在空间编码,并通过流匹配进行去噪训练。

    • 在推理阶段,采用无分类器指导(CFG)和CFG退火策略,以平衡生成视频的表现力和计算效率。

  4. 实验结果

    • OmniHuman在多个数据集上进行了测试,表现出优于现有方法的性能,尤其是在手势生成、唇同步和视频质量方面。

    • 通过消融实验验证了全条件训练策略的有效性,展示了不同条件比例对生成结果的影响。

  5. 主要优势

    • 数据扩展:通过混合条件训练,OmniHuman能够利用更多样化的数据,减少数据浪费。

    • 生成多样性:支持多种输入模态和场景,生成逼真的人体视频,涵盖复杂的运动和交互。

    • 灵活性:支持不同宽高比和身体比例的输入,适应多种应用场景。

总结来说,OmniHuman通过引入多条件训练策略,解决了现有端到端人体动画模型在数据扩展和生成多样性方面的挑战,显著提升了生成视频的逼真度和灵活性。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目主页在这里,如下所示:

摘要

端到端的人体动画,例如基于音频驱动的说话人生成,近年来取得了显著进展。然而,现有方法在扩展性方面仍然难以与大型通用视频生成模型相媲美,限制了其在实际应用中的潜力。本文提出了OmniHuman,一个基于扩散Transformer的框架,通过在训练阶段混合与运动相关的条件来扩展数据规模。为此,我们引入了两种针对这些混合条件的训练原则,并提出了相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的运动生成,最终实现高度逼真的人体视频生成。更重要的是,OmniHuman支持多种肖像内容(面部特写、肖像、半身、全身),支持说话和唱歌,处理人与物体的交互以及具有挑战性的身体姿势,并适应不同的图像风格。与现有的端到端音频驱动方法相比,OmniHuman不仅生成更逼真的视频,还在输入方面提供了更大的灵活性。它还支持多种驱动模式(音频驱动、视频驱动和组合驱动信号)。视频样本可在项目页面上查看。

1 引言

自基于扩散Transformer(DiT)的视频扩散模型出现以来,通用视频生成领域(包括文本到视频和图像到视频)取得了显著进展。推动这一进展的关键因素是大规模训练数据,通常以视频-文本对的形式存在。扩展训练数据集使DiT网络能够学习各种物体和场景的运动先验,从而在推理时具有强大的泛化能力。

基于这些预训练的视频扩散网络,端到端的人体动画模型(无论是基于姿势驱动的人体动画还是基于音频驱动的说话人生成)自去年以来发展迅速。尽管这些模型取得了逼真的结果,但它们通常在高度过滤的数据集上进行训练以简化学习过程,限制了其适用场景。例如,大多数现有的端到端音频条件模型仅限于面部或肖像动画,而大多数姿势条件模型只能处理从正面视角拍摄的全身图像,且背景静态。迄今为止,尚未有工作尝试扩展训练数据以实现更具通用性的人体动画。

扩展人体动画数据看似简单,但实际上并非如此。直接添加更多数据并不总是对网络训练有益。以音频条件模型为例:音频主要与面部表情相关,与身体姿势、背景运动、摄像机移动或光照变化几乎没有关联。因此,原始训练数据必须经过过滤和裁剪,以尽量减少这些无关因素的影响。此外,音频条件模型通常还需要基于唇同步准确性进行进一步的数据清理,这对于稳定训练也很重要。同样,姿势条件模型也需要大量的过滤、裁剪和清理。不幸的是,这些过程丢弃了大量数据,使得数据集扩展成为徒劳的努力,尽管许多被丢弃的数据包含对训练数据扩展至关重要的宝贵运动模式。

在本文中,我们解决了扩展人体动画数据和模型的挑战。我们的关键见解是,在训练过程中引入多种条件信号(如文本、音频和姿势)可以显著减少数据浪费。这种方法有两个主要优势。一方面,原本会被单条件模型(如音频或姿势条件模型)丢弃的数据可以在条件较弱或更通用的任务(如文本条件)中加以利用。在此类数据上进行训练可以使模型学习更多样化的运动模式,从而缓解数据过滤带来的限制。另一方面,不同的条件信号可以相互补充。例如,虽然音频本身无法精确控制身体姿势,但更强的条件(如姿势输入)可以提供额外的指导。通过在训练过程中将更强的条件信号与音频数据结合,我们旨在减少过拟合并提高生成结果的泛化能力。

基于上述考虑,我们设计了全条件训练策略,该策略遵循两个提出的训练原则:(1)更强条件的任务可以利用较弱条件的任务及其对应的数据,在模型训练过程中实现数据扩展;(2)条件越强,训练比例应越低。为了实现这一策略,我们基于先进的视频生成模型架构DiT构建了一个混合条件人体视频生成模型,命名为OmniHuman。OmniHuman可以训练三种与运动相关的条件(文本、音频和姿势),从弱到强。这种方法解决了端到端框架中的数据扩展挑战,使模型能够受益于大规模数据训练,学习自然运动模式,并支持各种输入形式。

总体而言,我们的贡献可以总结如下:

  1. 我们提出了OmniHuman模型,一个混合条件的人体视频生成模型。它利用我们的全条件训练策略整合了各种与运动相关的条件及其对应的数据。与现有方法因严格过滤而减少数据不同,我们的方法受益于大规模混合条件数据。

  2. OmniHuman生成高度逼真和生动的人体运动视频,同时支持多种模态。它在不同的肖像和输入宽高比下表现良好。OmniHuman显著改善了手势生成,这是先前端到端模型的挑战,并支持各种图像风格,显著优于现有的音频条件人体视频生成方法。

2 相关工作

视频生成

近年来,扩散模型等技术的出现将生成模型的能力提升到了实际可用水平。图像生成的最新进展几乎可以生成与现实无法区分的结果。因此,越来越多的研究将重点转向视频生成领域。早期的文本到视频工作主要集中在预训练文本到图像模型的无训练适应,或在有限的视频数据集上集成时间层并进行微调。然而,由于缺乏大量数据,这些方法的视频生成质量往往不尽如人意。为了更好地利用扩展规律并推动视频生成模型的边界,最近的工作在三个主要领域进行了优化。首先,他们收集了更大规模的高质量视频数据集,数据量增加到(O(100M))个高分辨率视频片段。其次,他们使用3D因果VAE压缩视频数据的空间和时间特征,从而提高视频建模效率。第三,基础模型结构从UNet过渡到Transformer,提高了模型的可扩展性。此外,这些工作利用精心设计的渐进训练方案和数据集来最大化模型的潜力。例如,首先在大规模低分辨率图像和视频上进行预训练,利用数据多样性增强模型的泛化能力,然后在一部分高分辨率、高质量数据上进行微调,以提高生成视频的视觉质量。大规模数据显著提高了通用视频生成的效果。然而,人体动画合成领域的进展相对较慢。

人体动画

作为视频生成的重要任务,人体动画使用人体图像和驱动条件(如音频或视频)合成人体视频。早期的基于GAN的方法通常使用由数万个视频组成的小数据集,以自监督的方式实现视频驱动。随着扩散模型的进步,一些相关工作在使用类似规模数据集的情况下,性能超过了基于GAN的方法。这些方法不使用像素级视频,而是使用2D骨架、3D深度或3D网格序列作为驱动条件。音频驱动方法过去主要关注肖像。尽管有一些努力将框架扩展到全身,但在手部质量方面仍然存在挑战。为了绕过这一问题,大多数方法采用两阶段混合驱动策略,利用手势序列作为强条件来辅助手部生成。CyberHost尝试通过码本设计实现单阶段音频驱动的说话人生成。最值得注意的是,现有的人体动画方法通常专注于小规模数据集和有限复杂度的结构,通常少于一千小时和2B。尽管FADA采用半监督数据策略利用1.4K小时的肖像视频,VLogger精心收集了2.2K小时的半身视频,Hallo3从CogVideoX5B-I2V初始化其权重,但它们的性能并未表现出像LLM、VLM和T2I/T2V等其他任务中的扩展规律趋势。人体动画中的扩展效应尚未得到有效研究。

3 方法

在本节中,我们介绍了我们的框架OmniHuman,该框架在网络训练期间混合与运动相关的条件以扩展训练数据。首先,我们提供了框架的概述,包括其输入、输出和关键设计元素。接下来,我们重点介绍全条件设计,涵盖音频、姿势和参考条件。然后,我们详细介绍了OmniHuman的训练策略,该策略利用这些全条件进行混合数据训练,使模型能够从大规模数据集中学习自然运动。最后,我们描述了OmniHuman模型推理阶段的实现细节。

图2. OmniHuman框架。该框架包含两部分:(1)OmniHuman模型,基于DiT架构,支持文本、图像、音频和姿态等多种模态的同时条件输入;(2)全条件训练策略,采用基于条件与动作相关程度的渐进式多阶段训练。混合条件训练使OmniHuman模型能够从混合数据的扩展中受益。

概述

如图2所示,我们的方法由两个主要部分组成:OmniHuman模型(一个多条件扩散模型)和全条件训练策略。对于模型,OmniHuman模型从预训练的Seaweed模型开始,该模型使用MMDiT,并最初在通用文本-视频对上进行训练,用于文本到视频和文本到图像任务。给定参考图像,OmniHuman模型旨在使用一个或多个驱动信号(包括文本、音频和姿势)生成人体视频。为此,我们采用了多种策略将帧级音频特征和姿势热图特征集成到OmniHuman模型中。详细过程在以下小节中解释。OmniHuman模型利用因果3DVAE将视频投影到其原始大小的潜在空间中,并使用流匹配作为训练目标来学习视频去噪过程。我们采用三阶段混合条件后训练方法,逐步将扩散模型从通用文本到视频模型转变为多条件人体视频生成模型。如图2左侧所示,这些阶段依次引入文本、音频和姿势的驱动模态,根据它们的运动相关性强度从弱到强,并平衡它们的训练比例。

全条件设计

驱动条件。我们采用了不同的方法来注入音频和姿势条件。对于音频条件,使用wav2vec模型提取声学特征,然后使用MLP进行压缩以与MMDiT的隐藏大小对齐。每帧的特征与相邻时间戳的音频特征连接,生成当前帧的音频标记。如图2所示,这些音频标记通过交叉注意力注入到MMDiT的每个块中,使音频标记与噪声潜在表示之间进行交互。为了整合姿势条件,我们使用姿势引导器对驱动姿势热图序列进行编码。生成的姿势特征与相邻帧的特征连接以获得姿势标记。然后,这些姿势标记与噪声潜在沿通道维度堆叠,并馈送到统一的多条件扩散模型中进行视觉对齐和动态建模。文本条件保留在MMDiT文本分支中。

外观条件。OmniHuman的目标是生成既保留主体身份又保留参考图像背景细节的视频输出。为了实现这一目标,先前的研究提出了多种将外观表示注入去噪过程的策略。最广泛采用的方法涉及使用参考网络,这是整个扩散UNet或DiT的可训练副本,与原始去噪网络的自注意力层集成。虽然这种方法有效地将外观特征转移到去噪过程中,但它需要复制一整套可训练参数,随着模型规模的增加,这带来了可扩展性挑战。为了克服这一挑战,OmniHuman引入了一种简单而有效的参考条件策略。我们没有构建额外的网络模块,而是重用原始去噪DiT骨干来编码参考图像。具体来说,首先使用VAE将参考图像编码为潜在表示,然后将参考和噪声视频潜在展平为标记序列。这些序列被打包在一起并同时馈送到DiT中,使参考和视频标记能够通过整个网络的自注意力进行交互。为了帮助网络区分参考和视频标记,我们修改了DiT中的3D旋转位置嵌入(RoPE),将参考标记的时间分量归零,而视频标记的RoPE保持不变。这种方法有效地整合了外观条件,而无需添加额外参数。除了参考图像外,为了支持长视频生成,我们借鉴了先前的方法,使用运动帧,将其特征与噪声特征连接。

在引入这些条件后,与运动相关的条件现在包括文本、参考图像、音频和姿势。文本描述当前事件,参考图像定义运动范围,音频决定伴随语音手势的节奏,姿势指定精确的运动。它们与人体运动的相关性强度可以认为按此顺序递减。

全条件训练的扩展

得益于多条件设计,我们可以将模型训练分为多个任务,包括图像和文本到视频、图像和文本、音频到视频以及图像和文本、音频、姿势到视频。在训练过程中,不同的模态为不同的数据激活,允许更广泛的数据参与训练过程,从而增强模型的生成能力。在传统的文本到视频预训练阶段之后,我们遵循两个训练原则来扩展条件人体视频生成任务。

原则1,更强条件的任务可以利用较弱条件的任务及其对应的数据,在模型训练过程中实现数据扩展。由于过滤标准(如唇同步准确性、姿势可见性和稳定性)而被排除在音频和姿势条件任务之外的数据可以用于文本和图像条件任务,因为它们符合较弱条件的标准。因此,在第一阶段1,我们丢弃音频和姿势条件。原则2,条件越强,训练比例应越低。在训练过程中,更强的运动相关条件(如姿势)通常比弱条件(如音频)训练得更好,因为模糊性较小。当两种条件都存在时,模型倾向于依赖更强条件进行运动生成,防止弱条件有效学习。因此,我们确保弱条件的训练比例高于强条件。我们构建阶段2以仅丢弃姿势条件,并在最终阶段3使用所有条件。此外,文本、参考、音频和姿势的训练比例逐渐减半。这种方法为更具挑战性的任务分配更高的梯度权重,并防止在重叠条件训练期间过拟合单一条件。原则1使我们能够显著扩展训练数据,而原则2确保模型在混合条件训练期间充分利用每个运动相关条件的优势,并学习其运动生成能力。通过结合原则1和2,OmniHuman可以有效地训练混合条件数据,受益于数据扩展并取得令人满意的结果。

推理策略

对于音频驱动场景,除姿势外的所有条件都被激活。对于与姿势相关的组合,所有条件都被激活,但对于仅姿势驱动,音频被禁用。通常,当条件被激活时,所有具有较低运动相关影响的条件也会被激活,除非不必要。在推理过程中,为了平衡表现力和计算效率,我们在多个条件下对音频和文本应用无分类器指导(CFG)。然而,我们观察到增加CFG会导致角色出现明显的皱纹,而减少CFG会损害唇同步和运动表现力。为了缓解这些问题,我们提出了CFG退火策略,在整个推理过程中逐步降低CFG幅度,从而显著减少皱纹的出现,同时确保表现力。OmniHuman能够基于提供的参考图像和各种驱动信号生成任意长度的视频片段,只要在内存限制内。为了确保长视频的时间连贯性和身份一致性,使用前一个片段的最后五帧作为运动帧。

4 实验

实现细节

数据集。通过基于美学、图像质量、运动幅度等进行过滤(视频生成的常见标准),我们获得了18.7K小时的人体相关数据进行训练。其中13%使用唇同步和姿势可见性标准进行选择,启用音频和姿势模态。在训练过程中,调整数据组成以适应全条件训练策略。对于测试,我们按照肖像动画方法Loopy和半身动画方法CyberHost进行评估。我们从公共肖像数据集中随机抽取100个视频,包括CelebV-HQ(一个包含混合场景的多样化数据集)和RAVDESS(一个包含语音和歌曲的室内数据集)作为肖像动画的测试集。对于半身动画,我们使用了CyberHost的测试集,其中包括总共269个身体视频,涵盖119个身份,涵盖不同种族、年龄、性别和初始姿势。

基线。为了全面评估OmniHuman在不同场景下的性能,我们与肖像动画基线进行了比较,包括Sadtalker、Hallo、Vexpress、EchoMimic、Loopy、Hallo-3,以及与身体动画基线进行了比较,包括DiffTED、DiffGest + Mimiction、CyberHost。

指标。对于视觉质量,使用FID和FVD评估生成图像和视频与标注图像和视频之间的距离。我们还利用q-align(一种VLM)来评估无参考IQA(图像质量)和ASE(美学)。对于唇同步,我们使用广泛使用的Sync-C来计算视觉和音频内容之间的置信度。此外,使用HKC(手关键点置信度)和HKV(手关键点方差)来表示手部质量和运动丰富度。

与现有方法的比较

如表1和表2所示,总体而言,OmniHuman在肖像和身体动画任务中均表现出优于领先专用模型的性能。对于音频驱动动画,生成结果无法与原始视频完全相同,尤其是当参考图像仅包含头部时。模型在不同场景下对运动风格的偏好使得使用单一指标衡量性能变得复杂。通过对数据集中的指标进行平均,OmniHuman在所有评估指标中取得了最佳结果,反映了其整体有效性。此外,OmniHuman在特定数据集中的几乎所有指标上都表现出色。值得注意的是,现有方法使用单一模型处理特定身体比例(肖像、半身)和固定输入大小和比例。相比之下,OmniHuman支持各种输入大小、比例和身体比例,使用单一模型取得了令人满意的结果。这一优势源于其全条件训练,在混合数据训练期间从大规模多样化内容和不同大小中学习。

全条件训练的消融研究

在这里,我们主要分析和解释了OmniHuman中全条件训练的原则1和原则2。对于第一个原则,我们比较了仅使用符合音频和姿势动画要求的数据(即100%音频训练比例)与使用较弱条件数据(即文本)的训练。我们的实验结果表明,这两部分数据的比例显著影响最终性能。从图3中的可视化结果可以看出,高比例的音频条件特定数据训练会减少动态范围,并可能导致复杂输入图像的失败。以50%的比例包含较弱条件数据会产生令人满意的结果(例如,准确的唇同步和自然运动)。然而,过多的较弱条件数据会阻碍训练,导致与音频的相关性较差。我们还进行了主观评估,以确定训练期间这两种数据类型的最佳混合比例。具体来说,我们进行了盲评,20名受试者比较了不同维度的样本,以选择最满意的样本,并可以选择弃权。总共评估了50个描绘不同场景的样本。表3中的结果与可视化得出的结论一致。

第二个原则也可以与原则1实验同时验证,但我们还进行了另一个实验,使用不同的姿势条件比例来研究姿势条件比例的影响。视觉比较如图4和图5所示。当模型以低姿势条件比例训练并以仅音频条件测试时,模型倾向于生成强烈、频繁的伴随语音手势,这由图5顶行的运动模糊效果和图4顶行的不正确手指所证明。另一方面,如果我们以高姿势比例训练模型,模型倾向于依赖姿势条件来确定生成视频中的人体姿势。因此,给定输入音频作为唯一的驱动信号,生成结果通常保持相似的姿势,如图4和图5底行所示。

因此,我们将姿势比例设置为50%作为最终训练配置。

除了分析阶段2和阶段3中新驱动模态的训练比例外,外观条件的训练比例同样重要。我们通过两个实验研究了参考图像比例对30秒视频生成的影响:(1)将参考图像比例设置为70%,低于文本注入比例但高于音频;(2)将参考图像比例设置为30%,低于音频和文本的注入比例。比较结果如图6所示,显示较低的参考比例会导致更明显的错误累积,表现为背景中噪声和颜色偏移增加,性能下降。相比之下,较高的参考比例确保生成的输出与原始图像的质量和细节更好地对齐。这可以解释为,当参考图像训练比例低于音频时,音频主导视频生成,难以保持参考图像中的ID信息。

扩展的视觉结果

在图7、图8和图9中,我们展示了更多的视觉结果,以展示OmniHuman在人类动画方面的强大能力,这些能力很难通过指标和与现有方法的比较来捕捉。

OmniHuman兼容多种输入图像,并保持输入的运动风格,例如保留动漫中特有的嘴部动作。OmniHuman在物体交互方面也表现出色,能够生成一边唱歌一边演奏不同乐器的视频,以及在手持物体时的自然手势。由于其在训练中与姿态条件的兼容性,OmniHuman可以执行姿态驱动的视频生成,或者姿态和音频驱动的组合生成。更多视频样本可以在我们的项目页面上查看(强烈推荐)。

5 结论

我们提出了OmniHuman,一个端到端多模态条件人体视频生成框架,基于单张图像和运动信号(如音频、视频或两者)生成人体视频。OmniHuman采用多模态运动条件的混合数据训练策略,利用混合数据的可扩展性克服了先前方法面临的高质量数据稀缺问题。它显著优于现有方法,从弱信号(尤其是音频)生成高度逼真的人体视频。OmniHuman支持任何宽高比的图像(肖像、半身或全身),在各种场景下提供逼真、高质量的结果。

Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档),个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的人脸识别系统 深度学习 (源码+文档)Python毕业设计-基于Python的
### 关于 EfficientNet 的论文下载 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由 Google Research 发表的重要论文,探讨了如何通过复合扩展方法来优化卷积神经网络 (ConvNets) 的性能。该论文提出了一种新的模型缩放策略——复合扩展(Compound Scaling),这种方法能够更高效地平衡宽度、深度和分辨率之间的关系,从而显著提高模型的精度和效率[^1]。 如果需要获取这篇论文的 PDF 文件,可以通过以下几种方式: #### 1. **官方发布平台** 论文最初发表在 arXiv 上,因此可以直接访问其官方网站进行下载: - 链接地址:https://arxiv.org/abs/1905.11946 (此链接指向原始版本的预印本) #### 2. **学术搜索引擎** 使用学术搜索引擎可以帮助快速定位到论文资源。常用的工具包括但不限于: - Google Scholar: https://scholar.google.com/ 输入关键词 “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks”,即可找到相关条目并尝试点击免费或付费选项下载。 #### 3. **第三方存储库** 如果无法直接从上述渠道获取,还可以考虑一些开放存取网站,例如: - Papers With Code: 提供大量机器学习领域经典论文及其对应代码实现。 地址:https://paperswithcode.com/paper/efficientnet-rethinking-model-scaling-for - Semantic Scholar: 类似于Google Scholar的功能,但界面更加简洁友好。 地址:https://www.semanticscholar.org/ 以下是基于 Python 编写的简易脚本来模拟自动抓取功能(仅作演示用途,请勿滥用爬虫技术违反版权规定): ```python import requests def fetch_paper(url, filename="paper.pdf"): response = requests.get(url) if response.status_code == 200: with open(filename, 'wb') as f: f.write(response.content) print(f"Paper successfully downloaded as {filename}") else: print("Failed to retrieve the paper") # Example usage fetch_paper('https://arxiv.org/pdf/1905.11946', 'EfficientNet_paper.pdf') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值