自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1244)
  • 收藏
  • 关注

原创 DeepSeek 更新 DeepSeek-R1-0528,性能强劲直追OpenAI o3

DeepSeek-R1-0528模型完成重要升级,在数学、编程和通用推理任务上表现显著提升。最新测试数据显示:AIME数学竞赛准确率从70%提升至87.5%,Codeforces编程竞赛评分从1530升至1930,HMMT数学竞赛通过率从41.7%跃升至79.4%。模型通过增加计算资源投入(单问题token消耗从12K增至23K)和算法优化实现了思维深度增强。同时发布的DeepSeek-R1-0528-Qwen3-8B衍生模型在AIME测试中达到开源模型SOTA水平。新版本还新增系统提示支持、降低幻觉率并优

2025-05-30 08:00:20 1379

原创 如何在Kaggle中使用miniconda

本文介绍了如何在Kaggle平台上使用Miniconda进行Python环境管理。首先,通过命令行检查Python版本(3.11.11),然后创建并安装Miniconda到指定目录。接着,使用Miniconda创建一个新的Python环境(conda_env),并指定Python版本为3.10。通过激活该环境,可以验证Python版本已切换至3.10.16。最后,演示了如何在激活的环境中安装numpy库。整个过程展示了如何在Kaggle中灵活管理不同的Python环境,以满足不同项目的需求。

2025-05-13 13:21:31 670

原创 冲刺1w粉丝,感恩有你!CSDN,我们来了!

我们需要的互联网,不是一个能被随意关闭的垃圾桶,而是一个开放、自由、安全的空间。亚伦的故事提醒我们,互联网的未来不仅依赖于技术的进步,更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气,最终成功解决了问题,并将解决方案分享给了更多需要的人。还记得刚开始在CSDN分享技术文章时,我只是一个默默无闻的小白,怀揣着对技术的热爱,小心翼翼地敲下每一行代码,写下每一篇博客。那时的我,从未想过有一天,我的粉丝数会突破四位数,甚至向着1w的目标迈进!喜悦的是,我的努力得到了认可,我的分享帮助到了更多人;

2025-02-17 14:03:06 491

原创 【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1646 1

原创 【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 1708

原创 如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统,可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目,因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台,包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境,可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook,提供一系列功能,包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1418

原创 【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型,与之前的3.0版本相比,这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似,Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 2763

原创 Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。

2024-09-26 09:16:42 2513

原创 啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1437

原创 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 2849 1

原创 如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?,回答五花八门,可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:

2024-08-03 12:35:19 2833

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示,该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力,并拥有广泛的新功能,包括改进的推理能力,可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为,对于人工智能助手来说,最重要的产品将是它有多智能,”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示,“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础,令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 747

原创 大教堂和小集市正在AGI上上演

世界上的建筑可以分两种:一种是集市,天天开放在那里,从无到有,从小到大;还有一种是大教堂,几代人呕心沥血,几十年才能建成,投入使用。当你新建一座建筑时,你可以采用集市的模式,也可以采用大教堂的模式。一般来说,集市的特点是开放式建设、成本低、周期短、品质平庸;大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派:闭源企业派和开源自由派。但无论哪种形式,都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1188

原创 【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示,即将发布春季直播,而且也有很多媒体透露没有Sora,可能是AI Search等等,但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露,不是搜索引擎,而是GPT的优化。然而,OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 948

原创 大算力时代已经到来

计算机发展到现在,早已经历了大数据时代,而现如今国家也注意到国民大数据的重要性,而给予保护性条款和制度的建立。我觉得这只是早已注定的结局,但是未来该走向何方,着眼当下,我们互联网人早已身处在答案之中——大算力(Big Computing Power)时代。回顾2019年,Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年,区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然,许多3A大作也可以在4k画质下突破百帧。随后,AMD也在2

2022-08-06 17:58:32 1377

原创 一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷,许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中,总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗?答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里,权贵并不重要,更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下,计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 405 1

原创 Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”

谷歌调整AI模型使用政策,停止向免费用户提供Gemini2.5Pro调用权限,转向API密钥系统。目前开发者仍可获取云平台免费API密钥,但Gemini2.5Pro已不开放免费层调用。虽然Gemini2.0继续免费,但性能差距明显。官方表示仍提供基础免费资源,但高性能模型将逐步纳入付费体系,反映出商业化趋势。开发者需在性能和成本间权衡。这一调整引发社区广泛讨论,尤其影响依赖高性能模型的原型开发者。

2025-06-10 08:08:49 115

原创 【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考能力,显著提升了语言模型的整体性能和适应性。

2025-06-10 08:05:14 353

原创 【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

我们开源的80亿参数模型(基于Stable Diffusion 3.5 Large和Wan-VAE)仅用4周时间在256×64GB NPU上训练,就取得了VBench评测85.14分的业界最佳成绩。

2025-06-09 12:03:14 625 1

原创 阿里开源Qwen3向量模型 性能狂增40%超越Google与OpenAI

阿里开源通义千问3向量模型系列Qwen3-Embedding,性能提升超40% 阿里正式开源新一代通义千问3向量模型系列Qwen3-Embedding。该模型基于千问3大模型底座,针对文本表征、检索和排序等任务进行专项优化,在MTEB榜单中超越Google Gemini、OpenAI和微软的同类产品,获得SOTA性能。模型包含Qwen3-Embedding和Qwen3-Reranker两大类别,支持超100种语言和多种编程语言的跨模态检索。 此次开源包含9款不同参数规模的模型(0.6B-8B),开发者可通过

2025-06-08 07:28:00 266 1

原创 【小红书拥抱开源】小红书开源大规模混合专家模型——dots.llm1

dots.llm1模型是一个大规模混合专家模型(MoE),在总计1420亿参数中激活140亿参数,其性能与最先进模型相当。通过我们精心设计的高效数据处理流程,dots.llm1在预训练11.2万亿高质量token(未使用合成数据)后,性能已可比拟Qwen2.5-72B。为促进进一步研究,我们每训练1万亿token就会开源中间检查点,为大型语言模型的学习动态研究提供宝贵洞见。

2025-06-07 10:41:48 1243

原创 RenderFormer: 基于Transformer的三角形网格全局光照神经渲染

RenderFormer是一种神经渲染管道,它能直接从基于三角形场景表征中渲染出具有完整全局光照效果的图像,且无需针对特定场景进行训练或微调。

2025-06-06 13:47:27 1125

原创 英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

英伟达联手MIT与港大推出Fast-dLLM框架,显著提升扩散模型推理速度最高达27.6倍。该创新通过块状KV缓存机制和置信度感知并行解码策略,有效解决了扩散模型计算冗余和质量下降问题。测试显示,在保持准确率仅下降1-2%的同时,实现了3.2-27.6倍的加速效果,使扩散模型在语言生成任务中更具竞争力。该技术有望推动AI在更多领域的实际应用。

2025-06-06 09:58:22 457

原创 DFloat11:高效GPU推理的无损LLM压缩

DFloat11是一种革命性的无损压缩框架,可将大语言模型(LLMs)体积缩减约30%,同时保持与原模型完全一致的比特级输出。该技术通过BFloat16指数位的霍夫曼编码与硬件感知算法设计,实现了GPU实时解压,在资源受限的设备上显著降低显存占用(如24GB显存即可运行14B模型)。最新版本支持Qwen3、Gemma3等主流模型,解压性能提升20-40%,并采用更安全的safetensors格式。DFloat11完全由GPU处理解压,无需CPU干预,在批量推理时效率接近原始模型,为边缘计算和低资源场景提供了

2025-06-04 08:35:35 661

原创 DMD2:改进的分布匹配蒸馏用于快速图像合成

最近的蒸馏方法展现了将扩散模型提炼为高效一步生成器的潜力。其中,分布匹配蒸馏(DMD)生成的一步生成器在分布上与教师模型保持一致,但无需强制与教师模型的采样轨迹形成一一对应关系。然而,为确保训练稳定性,DMD需要额外使用教师模型通过多步确定性采样生成的大量噪声-图像对来计算回归损失。

2025-06-04 08:11:16 275

原创 【小米拥抱AI】小米开源视觉大模型—— MiMo-VL

小米推出MiMo-VL-7B多模态大模型,采用四阶段预训练和混合策略强化学习(MORL)框架,在HuggingFace和ModelScope开源SFT和RL版本。评估显示:1) 通用视觉理解达到开源SOTA;2) 多模态推理显著超越基线模型;3) GUI理解媲美专用模型;4) Elo评分在7B-72B模型中排名第一。该模型展现出色的推理和泛化能力,为多模态研究提供新基准。

2025-06-01 11:11:51 639 2

原创 【小米拥抱AI】小米开源 MiMo-7B-RL-0530

MiMo-7B系列通过创新的预训练和后训练策略,在数学与代码推理任务上取得突破性进展。该模型采用三阶段数据混合训练和多token预测技术,预训练超过25万亿token。强化学习训练采用13万道经过验证的数学与编程题,首创测试难度驱动的奖励机制,并优化训练基础设施,使推理速度提升2倍。最新MiMo-7B-RL-0530版本在AIME24测试中达到80.1分,超越320亿参数模型的性能表现,展示了小模型实现均衡推理能力的可能性。所有模型均已开源,为推理型语

2025-05-31 16:37:23 820

原创 ​黑森林实验室推出 FLUX.1Kontext:可通过文本和参考图像对图像进行多次修改

FLUX.1 Kontext推出创新情境化图像生成模型,支持文本和图像双重输入,实现无缝视觉概念编辑与生成。该模型在文本编辑和角色一致性方面表现卓越,推理速度比主流模型快8倍。性能测试显示FLUX.1 Kontext在美学质量、提示跟随等维度领先,但仍存在迭代编辑后图像质量下降等局限。开发者版本FLUX.1 Kontext [dev]将开放私有测试,供研究和安全测试使用。

2025-05-30 12:53:12 1814

原创 MINIMAX AI 提出新的RL方法“One RL to See Them All: 视觉三重统一强化学习”

V-Triune是一种创新强化学习框架,首次实现视觉语言模型(VLM)在单一训练流程中同步掌握视觉推理与感知任务。其三大核心组件——数据格式化、验证器奖励计算与源级监控——协同优化模型性能。基于该框架训练的Orsta模型(7B至32B参数)在MEGA-Bench Core基准测试中最高提升14.1%,尤其在动态IoU奖励机制加持下,视觉任务表现显著提升。研究开源了V-Triune系统与Orsta模型,推动VLM领域发展。

2025-05-28 10:39:18 800

原创 通义智文开源QwenLong-L1: 迈向长上下文大推理模型的强化学习

阿里云发布首个强化学习训练的长文本推理模型QwenLong-L1-32B,在七大长文档问答基准中超越多个旗舰模型,性能媲美Claude-3.7-Sonnet。该模型采用创新RL框架,通过渐进式上下文扩展和混合奖励机制优化长文本推理能力。同时开源包含1600道数学、逻辑和多跳推理题目的DocQA-RL-1.6K数据集。研究提出三阶段训练方法:预热微调、课程强化学习和难度感知回溯采样,整合多种RL算法提升模型表现。代码库支持快速部署和训练,提供验证器启动与多节点训练方案。

2025-05-27 15:54:02 952

原创 字节开源 Dolphin: 通过异构锚点提示进行文档图像解析

Dolphin是一种新型多模态文档图像解析模型,采用"先分析后解析"的两阶段方法:首先通过生成元素序列实现页面级布局分析,再通过异构锚点和任务提示并行解析各类文档元素。该模型基于Swin Transformer视觉编码器和MBart文本解码器架构,支持页面级和元素级两种解析粒度,能高效处理文本、表格、公式等复杂文档元素。项目提供Hugging Face模型格式和原始配置两种实现方式,包含完整的安装指南和推理脚本,在多项文档解析任务中展现出优异性能。模型特点包括轻量级架构、并行解析机制和与

2025-05-26 15:49:43 934 2

原创 字节豆包团队开源 BAGEL - 多模态理解和生成统一模型

开源多模态基础模型BAGEL发布,具备先进视觉理解与生成能力。该7B参数模型采用混合专家架构,通过双编码器提取图像特征,在万亿级多模态数据上训练,支持文本到图像生成、智能编辑等任务。基准测试显示,BAGEL在MMBench等视觉理解任务中超越Qwen2.5-VL等模型,图像生成质量优于SD3。其独特之处在于涌现出自由编辑、3D操作等高级能力,研究表明这些能力随训练规模扩大呈阶段性发展。模型还展现出优异的多视图合成和世界导航性能,扩展了传统图像编辑的边界。

2025-05-24 09:50:05 1278

原创 MMaDA——开源首个多模态大扩散语言模型

MMaDA是一套创新的多模态扩散基础模型,通过统一架构实现文本推理、多模态理解和文生图功能。核心创新包括:1) 模态无关的统一扩散框架;2) 混合长思维链微调技术;3) 专研的UniGRPO强化学习算法。模型系列包含三个阶段(Base/MixCoT/Max),当前已开源8B-Base版本,支持文本/多模态/图像生成任务。用户可通过简单命令快速部署推理环境,并利用配套脚本执行三类生成任务。该项目的代码、模型和论文均已在Huggingface等平台公开。

2025-05-24 09:42:42 970

原创 Mistral AI 开源最新 Small 模型——Devstral-Small-2505

Devstral 是一款专为软件工程任务设计的代理型大语言模型(LLM),由 Mistral AI 和 All Hands AI 合作开发 。Devstral 擅长使用工具探索代码库、编辑多个文件以及驱动软件工程代理。该模型在 SWE-bench 上表现出色,使其成为该基准测试中排名第一的开源模型。

2025-05-23 10:09:10 2131

原创 百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

百度飞桨团队于2025年5月20日发布了PaddleOCR 3.0版本,该版本在文字识别、多语种支持、手写体识别及文档解析等方面取得显著进展。核心亮点包括全场景文字识别模型PP-OCRv5,提高了识别精度和速度;通用文档解析方案PP-StructureV3,增强了布局区域检测和表格识别能力;智能文档理解方案PP-ChatOCRv4,结合大模型优势提升了信息提取准确性。此外,PaddleOCR 3.0还优化了部署能力和训练流程,并支持多种国产硬件。这一发布展示了百度在OCR技术上的创新,为开发者提供了更强大的

2025-05-23 07:19:04 1873

原创 更新nvidia-container-toolkit 1.17.7-1后,运行--gpus all 卡死问题

在使用Arch Linux时,尝试通过sudo docker run -it --runtime=nvidia --gpus all命令运行Docker容器时遇到系统卡死问题。经过数小时的排查,发现问题的根源在于nvidia-container-toolkit的1.17.7-1版本存在缺陷,该问题在Ubuntu和Arch系统上均有出现。解决方法是降级到1.17.6版本,通过执行sudo downgrade nvidia-container-toolkit libnvidia-container命令后,系统恢

2025-05-22 18:21:03 163

原创 Nvidia通过自研LLM压缩技术爆炸式提升模型性能

Llama-3.1-Nemotron-Nano-4B-v1.1 是一个基于 NVIDIA 的 Llama-3.1-Minitron-4B 模型衍生的大型语言模型(LLM),通过压缩技术从 Llama 3.1 8B 创建,旨在提升模型准确性和效率。该模型支持 128K 的上下文长度,并经过多阶段的后训练,包括监督微调和强化学习,以增强其推理、聊天和任务处理能力(如 RAG 和工具调用)。它适配于单个 RTX GPU,可在本地使用,并已准备好用于商业用途。模型支持多种语言,包括英语、编程语言及其他非英语语言。使

2025-05-21 10:58:32 1044

原创 火山引擎推出开源 MCP Servers,助力大模型应用开发

火山引擎发布了开源的大模型生态平台MCP Servers,旨在简化大模型应用的开发过程。该平台通过MCP协议允许企业封装和共享自研工具,形成一个互利共赢的生态系统。MCP Servers集成了多种高频场景的工具,如搜索、数据库和业务系统API,使开发变得像搭积木一样简单。此外,火山引擎推出了“MCP Market+火山方舟+Trae”的全链路开发闭环,支持从工具调用、模型推理到应用部署的一站式服务。火山方舟应用实验室也已开源多款大模型MCP应用,如DeepSearch,集成了多种MCP服务,进一步降低开发难

2025-05-21 06:45:14 241

原创 微软的 Windows Linux 子系统现已开源

微软宣布将其Windows Linux子系统(WSL)开源,代码已在GitHub上发布,供开发者下载、构建和贡献。WSL自2016年推出以来,已成为Windows中运行Linux环境的重要工具。微软通过重构操作系统,使WSL能够独立运行,从而实现了开源。此举旨在让开发者社区能够直接参与WSL的改进和功能扩展,进一步提升其性能和与Linux服务的集成。微软高级软件工程师Pierre Boulay指出,WSL的演进包括从基于微进程的lxcore.sys到依赖Linux内核的转变,以及最终与Windows发行分离

2025-05-20 11:05:06 716

原创 B 站团队开源动漫视频生成模型 AniSora,一键打造多种风格动画

B站团队近日开源了动漫视频生成模型AniSora,旨在为动漫创作者和爱好者提供全新的创作工具。AniSora能够一键生成多种动漫风格的视频片段,涵盖剧集、原创动画、漫画改编、VTuber内容等多个领域。该模型通过构建完整的数据处理流水线、引入可控生成模型中的时空掩码模块,以及建立评测数据集,有效解决了动漫视频生成中的艺术风格、运动夸张和物理规律突破等难题。AniSora支持图生视频、帧插值和局部图像引导功能,显著提升了创作的灵活性和自由度。通过双盲人评实验和VBench测试,AniSora在人物一致性与运动

2025-05-19 13:02:23 495

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

2024-08-29

Grok-314B模型磁力链接

Grok-314B模型磁力链接

2024-03-18

retinanet-resnet50-fpn-coco-eeacb38b.pth

Imageai模型,RetinaNet (Size = 130 mb, high performance and accuracy, with longer detection time)

2023-01-12

image模型,tiny-yolov3.pt

image模型,(Size = 34 mb, optimized for speed and moderate performance, with fast detection time)

2023-01-12

image模型,yolov3.pt

image模型,YOLOv3 (Size = 237 mb, moderate performance and accuracy, with a moderate detection time)

2023-01-12

inception-v3-google-1a9a5a14.pth

ImageAI模型,InceptionV3 by Google Brain team (Size = 103 mb, slow prediction time and higher accuracy)

2023-01-12

densenet121-a639ec97

ImageAI模型,DenseNet121 by Facebook AI Research (Size = 30.8 mb, slower prediction time and highest accuracy)

2023-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除