自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1435)
  • 收藏
  • 关注

原创 【阿里拥抱开源】Qwen团队开源Qwen-Image-2512

Qwen-Image-2512是通义千问推出的文生图模型12月升级版,在人物真实感、自然细节和文字渲染三大方面实现显著提升。该版本通过增强面部细节、优化发丝纹理等处理,大幅降低AI生成痕迹;同时提升了风景、动物等自然元素的精细度,并改进了画面中文字的排版准确性。官方测试显示,Qwen-Image-2512是目前最强的开源文生图模型,性能媲美闭源产品。用户可通过Hugging Face的diffusers库快速调用模型,支持多种比例输出。对比8月版本,新模型在人物肤质、环境背景等方面均有质的飞跃,使生成图像更

2026-01-05 07:30:00 1702

原创 【阿里拥抱开源】 Tongyi-MAI 团队开源 Z-Image:一种高效的单流扩散变换器图像生成基础模型

Z-图像是一款60亿参数的高效图像生成模型,包含极速版、基础版和编辑版三个版本。极速版支持亚秒级推理,适配消费级设备,擅长真实图像生成和双语文本渲染;基础版开放原始模型供社区开发;编辑版专精图像编辑任务。模型采用S3-DiT架构,实现高效参数利用。演示显示其具备照片级真实感、精准文本渲染和创意编辑能力。

2025-11-27 16:24:50 1649

原创 黑森林研究所最新推出更强大的FLUX.2生图扩散模型,实现更逼真的视觉效果

FLUX.2是新一代图像生成模型,在图像质量、细节呈现和创作灵活性方面实现突破性提升。该模型支持多参考图融合(最多10张)、400万像素高分辨率输出,显著优化了文字渲染、提示跟随和世界知识理解能力。黑森林实验室采用开源核心模式,提供从专业级API(FLUX.2 [pro])到开放权重模型(FLUX.2 [dev])的全系列产品。基于创新的潜在流匹配架构,FLUX.2整合了240亿参数视觉语言模型与修正流变压器,在图像生成与编辑任务中均展现领先性能,为创意工作流程提供强大支持。

2025-11-26 08:33:25 1101

原创 黑森林实验室发布最新AI生图模型——FLUX.1-Krea-dev

FLUX.1 Krea [开发版]作为Krea 1的开源权重版本,在保持卓越性能的同时,呈现出极具辨识度的美学风格与超凡的真实质感。其训练目标旨在生成更真实多元的图像,有效解决了文生图领域普遍存在的色彩过度饱和问题。正因这些特质,我们称其为"有主张的"文生图模型——总能为用户带来视觉惊喜,呈现丰富多样的创意图像。

2025-08-02 07:41:14 2083

原创 ​黑森林实验室推出 FLUX.1Kontext:可通过文本和参考图像对图像进行多次修改

FLUX.1 Kontext推出创新情境化图像生成模型,支持文本和图像双重输入,实现无缝视觉概念编辑与生成。该模型在文本编辑和角色一致性方面表现卓越,推理速度比主流模型快8倍。性能测试显示FLUX.1 Kontext在美学质量、提示跟随等维度领先,但仍存在迭代编辑后图像质量下降等局限。开发者版本FLUX.1 Kontext [dev]将开放私有测试,供研究和安全测试使用。

2025-05-30 12:53:12 3256

原创 DeepSeek 更新 DeepSeek-R1-0528,性能强劲直追OpenAI o3

DeepSeek-R1-0528模型完成重要升级,在数学、编程和通用推理任务上表现显著提升。最新测试数据显示:AIME数学竞赛准确率从70%提升至87.5%,Codeforces编程竞赛评分从1530升至1930,HMMT数学竞赛通过率从41.7%跃升至79.4%。模型通过增加计算资源投入(单问题token消耗从12K增至23K)和算法优化实现了思维深度增强。同时发布的DeepSeek-R1-0528-Qwen3-8B衍生模型在AIME测试中达到开源模型SOTA水平。新版本还新增系统提示支持、降低幻觉率并优

2025-05-30 08:00:20 2027

原创 如何在Kaggle中使用miniconda

本文介绍了如何在Kaggle平台上使用Miniconda进行Python环境管理。首先,通过命令行检查Python版本(3.11.11),然后创建并安装Miniconda到指定目录。接着,使用Miniconda创建一个新的Python环境(conda_env),并指定Python版本为3.10。通过激活该环境,可以验证Python版本已切换至3.10.16。最后,演示了如何在激活的环境中安装numpy库。整个过程展示了如何在Kaggle中灵活管理不同的Python环境,以满足不同项目的需求。

2025-05-13 13:21:31 1296

原创 冲刺1w粉丝,感恩有你!CSDN,我们来了!

我们需要的互联网,不是一个能被随意关闭的垃圾桶,而是一个开放、自由、安全的空间。亚伦的故事提醒我们,互联网的未来不仅依赖于技术的进步,更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气,最终成功解决了问题,并将解决方案分享给了更多需要的人。还记得刚开始在CSDN分享技术文章时,我只是一个默默无闻的小白,怀揣着对技术的热爱,小心翼翼地敲下每一行代码,写下每一篇博客。那时的我,从未想过有一天,我的粉丝数会突破四位数,甚至向着1w的目标迈进!喜悦的是,我的努力得到了认可,我的分享帮助到了更多人;

2025-02-17 14:03:06 606

原创 【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1812 1

原创 【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 1987

原创 如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统,可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目,因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台,包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境,可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook,提供一系列功能,包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1892

原创 【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型,与之前的3.0版本相比,这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似,Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 3378

原创 Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。

2024-09-26 09:16:42 2695

原创 啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1487

原创 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 3342 1

原创 如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?,回答五花八门,可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:

2024-08-03 12:35:19 3270

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示,该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力,并拥有广泛的新功能,包括改进的推理能力,可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为,对于人工智能助手来说,最重要的产品将是它有多智能,”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示,“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础,令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 926

原创 大教堂和小集市正在AGI上上演

世界上的建筑可以分两种:一种是集市,天天开放在那里,从无到有,从小到大;还有一种是大教堂,几代人呕心沥血,几十年才能建成,投入使用。当你新建一座建筑时,你可以采用集市的模式,也可以采用大教堂的模式。一般来说,集市的特点是开放式建设、成本低、周期短、品质平庸;大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派:闭源企业派和开源自由派。但无论哪种形式,都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1237

原创 【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示,即将发布春季直播,而且也有很多媒体透露没有Sora,可能是AI Search等等,但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露,不是搜索引擎,而是GPT的优化。然而,OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 1003

原创 大算力时代已经到来

计算机发展到现在,早已经历了大数据时代,而现如今国家也注意到国民大数据的重要性,而给予保护性条款和制度的建立。我觉得这只是早已注定的结局,但是未来该走向何方,着眼当下,我们互联网人早已身处在答案之中——大算力(Big Computing Power)时代。回顾2019年,Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年,区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然,许多3A大作也可以在4k画质下突破百帧。随后,AMD也在2

2022-08-06 17:58:32 1430

原创 一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷,许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中,总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗?答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里,权贵并不重要,更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下,计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 442 1

原创 Kimi K2.5: 视觉代理智能

Kimi推出全新开源模型K2.5,在多模态能力和智能体集群方面实现重大突破。该模型基于15万亿视觉与文本混合标记训练,在编程和视觉领域表现突出,首创自主调度100个子智能体的集群执行模式,可将复杂任务并行分解为1500次工具调用,效率提升最高达4.5倍。K2.5特别强化了视觉化编程能力,支持从图像/视频直接生成代码,并通过智能体集群技术显著提升办公生产力,能够端到端处理文档、表格等专业任务。目前提供四种使用模式,集群功能处于公测阶段。

2026-01-29 09:36:09 680

原创 阿里巴巴通义MAI开源Z-Image

摘要: Z-Image是⚡️-Image系列的基础生成模型,专注于高质量、多样化的图像生成,支持精准提示控制。作为未蒸馏的Transformer模型,它保留了完整训练信号,适合复杂创作需求。核心优势包括:全量无分类器引导(CFG)、多风格覆盖(写实摄影、动漫等)、高输出多样性、开发者友好(支持LoRA/ControlNet)及精准负面提示控制。与轻量版Z-Image-Turbo相比,Z-Image在步数、可调性和多样性上更优,但速度较慢。推荐参数为512×512至2048×2048分辨率,28-50推理步数

2026-01-28 10:19:28 508

原创 DeepSeek-OCR 2: 视觉因果流

DeepSeek-OCR-2是一个基于Huggingface transformers库的OCR模型,支持在NVIDIA GPU上进行高效推理。该模型提供动态分辨率处理,默认支持(0-6)×768×768 + 1×1024×1024的视觉令牌。使用方法简单,只需安装指定依赖后调用模型接口,支持文档转markdown和自由OCR两种模式。模型还兼容vLLM加速和PDF处理,性能优异。该项目参考了DeepSeek-OCR、Vary等多个先进OCR方案,并在OmniDocBench基准测试集上验证了效果。

2026-01-28 07:15:00 364

原创 【美团拥抱开源】EvoCUA: 计算机使用代理的演进

摘要: EvoCUA 在2026年1月登上OSWorld开源模型榜首,32B版本以**56.7%**任务完成率刷新纪录,超越720亿参数模型,且训练步数减半。其8B轻量版同样表现亮眼(46.1%)。该模型支持端到端多轮操作(Chrome/Excel等),通过创新训练方法提升VLMs的计算机使用能力,同时保持通用性。技术报告与模型权重已开源,提供快速部署指南,支持社区进一步研究。项目致谢OpenCUA和OSWorld团队的贡献,推动智能体领域发展。 关键词: EvoCUA、OSWorld榜首、开源模型、计算机

2026-01-27 07:57:45 761

原创 【字节拥抱开源】Stable-DiffCoder:推进代码扩散大语言模型的前沿

Stable-DiffCoder是一款基于扩散大语言模型的代码生成工具,通过创新的块扩散持续预训练(CPT)和监督微调(SFT)技术,在80亿参数规模下超越了同类自回归和扩散模型。该模型采用定制预热策略和分块裁剪噪声调度,确保了训练稳定性,并保持与自回归基线相同的架构以实现公平对比。实验表明,Stable-DiffCoder在基础版和指令版中均展现卓越性能,支持多种推理参数配置。开发者可通过Hugging Face快速加载模型,实现高效的代码生成功能。项目已在GitHub开源,为扩散大语言模型的训练提供了实

2026-01-26 08:29:32 682

原创 美团龙猫开创LoZA增强机制,并开源LongCat-Flash-Thinking-ZigZag

在推出LongCat-Flash-Thinking-2601的同时,我们推出了名为LongCat-Flash-Thinking-ZigZag的高效替代方案。该模型与LongCat-Flash-Thinking-2601的唯一区别在于采用了LongCat ZigZag Attention(LoZA)增强机制。LoZA本质上是一种稀疏注意力方案,旨在以有限的计算预算将现有全注意力模型转化为稀疏版本。在长上下文场景中,LoZA能显著加速预填充密集型(如检索增强生成)和解码密集型(如工具集成推理)任务。

2026-01-26 07:30:00 1811

原创 微软开源VibeVoice-ASR

摘要: 微软开源VibeVoice-ASR语音转文本模型,支持60分钟长音频单次处理,直接生成结构化转录(含说话人、时间戳及内容),并允许自定义热词提升专业术语识别。其突破性在于避免传统分段处理导致的语境丢失,实现连贯的说话人追踪与语义分析。性能评测显示显著优势,代码库及演示已公开。采用MIT协议,开发者可通过指定邮箱反馈问题。 (字数:150)

2026-01-23 10:36:50 447

原创 清华智谱开源GLM-4.7-Flash

GLM-4.7-Flash是300亿参数级别的A3B混合专家模型,在轻量级部署中实现了性能与效率的平衡。基准测试显示其在多个任务中表现优异,如AIME 25(91.6)、GPQA(75.2)和SWE-bench Verified(59.2)。该模型支持vLLM、SGLang和Transformers等多种部署方式,提供详细的安装和运行指南。特别针对不同任务场景推荐了温度值、顶部概率等参数设置,并对特定基准测试提供了优化建议。本地部署支持4路张量并行和推测性解码等技术,适合在Blackwell GPU等硬件上

2026-01-21 14:48:07 465

原创 美团龙猫开源LongCat-HeavyMode-Summary

LongCat团队推出5600亿参数的混合专家模型LongCat-Flash-Thinking-2601,创新性地采用深度思考模式,通过并行思考与总结归纳两阶段实现复杂问题求解。该模式支持广度探索(多推理路径并行)和深度迭代(递归精炼),并配备强化学习优化的总结模型。相关模型已发布在Hugging Face,功能已在Longcat AI平台开放体验。

2026-01-20 14:24:53 138

原创 跃阶星辰AI开源STEP3-VL-10B

STEP3-VL-10B 是一款轻量级开源基础模型,旨在重新定义紧凑高效与前沿多模态智能之间的平衡。尽管其参数规模仅为 100亿,STEP3-VL-10B 在 视觉感知、复杂推理 和 以人为本的对齐能力 方面表现卓越。它不仅持续超越百亿规模以下的模型,还能与或超越体积大 10至20倍 的开源权重模型(如 GLM-4.6V(1060亿-A120亿)、Qwen3-VL-Thinking(2350亿-A220亿))以及顶尖闭源旗舰模型(如 Gemini 2.5 Pro 和 Seed-1.5-VL)相媲美。

2026-01-20 14:12:07 1100

原创 FLUX.2 [klein]: 迈向交互式视觉智能

FLUX.2 [klein]系列模型发布,实现亚秒级图像生成与编辑,兼顾速度与质量。包含9B(旗舰版)和4B(开源版)两种规格,支持文生图、图生图及多参考任务,最低仅需13GB显存(RTX 3090/4070)。9B模型通过步数蒸馏实现0.5秒推理,4B模型采用Apache 2.0协议完全开源。另提供FP8/NVFP4量化版本,显存占用减少40%-55%。该系列标志着交互式视觉智能的突破,适用于实时设计、AI创作等场景。

2026-01-16 08:28:47 869

原创 美团龙猫开源 LongCat-Flash-Thinking-2601

我们推出全新升级的LongCat-Flash-Thinking模型——这是一个基于创新性混合专家架构(MoE)、总参数量达5600亿的高效大型推理模型(LRM)。本次升级不仅延续了前代版本中领域并行训练方案的优势,在传统推理基准测试中保持顶尖水平,更通过精心设计的训练流程系统性强化了智能体思维能力:首先进行环境规模扩展与任务合成,随后实施可靠高效的大规模多环境强化学习。为aa适应现实世界智能体任务固有的噪声与不确定性,我们针对多种类型和级别的环境噪声开展了系统性分析与课程训练,确保模型在不完美条件下仍能保持

2026-01-15 11:07:36 1006

原创 GLM-Image:面向密集知识与高保真图像生成的自回归模型

GLM-Image是一种创新的混合架构图像生成模型,结合自回归和扩散解码器技术。该模型在常规图像生成方面与主流方法相当,但在文本渲染和知识密集型任务中表现突出。采用90亿参数的自回归生成器和70亿参数的扩散解码器,支持文生图和丰富的图生图功能。通过GRPO算法进行解耦强化学习,显著提升语义理解和视觉细节质量。模型支持高分辨率图像生成,在密集文本、知识驱动场景和多主体一致性生成方面具有优势。开发者可通过transformers和diffusers库快速部署,适用于复杂信息表达和高质量图像生成需求。

2026-01-15 08:02:42 984

原创 【百川智能开源 Baichuan-M3-235B】从问询到决策:构建可信赖的医疗人工智能

百川-M3是百川智能推出的新一代医疗大模型,专注于临床决策流程建模,显著提升医疗场景的实用性与可靠性。该模型在HealthBench、SCAN-bench等权威评测中全面超越GPT-5.2,实现低幻觉、高保真临床问诊。核心技术包括分段式强化学习(SPAR)、事实感知强化学习及高效训练推理优化(W4量化、推测解码加速96%)。支持快速部署与API调用,适用于医学教育、临床决策支持等场景,基于Apache 2.0许可证开源。强调需在专业人员指导下使用,不能替代医疗诊断。

2026-01-14 08:10:24 912

原创 【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

本文介绍了Engram模块的创新实现,通过条件记忆机制扩展大语言模型容量。该模块将传统N-gram嵌入升级为O(1)复杂度查找,在知识、推理等任务上优于MoE基线。研究揭示了神经计算与静态记忆的最优分配规律,并展示Engram能减轻浅层网络负担,提升推理效率。实验验证了其在27B模型上的性能优势,同时支持海量嵌入表的高效卸载。代码已开源,包含演示版本说明核心逻辑。

2026-01-13 14:07:06 414

原创 阿里Qwen开源Qwen3-VL-Embedding 和 Qwen3-VL-Reranker

Qwen3-VL-Embedding和Qwen3-VL-Reranker是基于Qwen3-VL基础模型开发的多模态检索系统。该系列模型支持文本、图像、视频等混合输入,在跨模态检索任务中表现出色。Embedding模型采用双塔架构生成语义向量,Reranker模型则通过单塔架构进行深度相关性评分。模型支持30多种语言,具备指令优化、量化部署等特性,提供2B和8B两种参数规模选择。安装简单,可通过Hugging Face或ModelScope获取模型,支持Transformers和vLLM等多种调用方式。

2026-01-12 08:16:56 1204

原创 【阿里拥抱开源】Qwen-Image-Edit-2511已经开源了

Qwen-Image-Edit-2511是Qwen团队推出的图像编辑模型升级版本,在角色一致性、多人融合、工业设计和几何推理等方面实现显著提升。该版本内置精选LoRA模型支持,无需额外调参即可实现光线控制等效果,并特别优化了工业设计场景的应用能力。通过集成社区创作的优质LoRA模型,进一步扩展了模型的创意表现力。用户可通过Hugging Face的diffusers库快速调用,支持多图像输入和复杂场景生成。该模型采用Apache 2.0许可证开源,适用于创意设计、产品开发等多种应用场景。

2026-01-09 07:44:33 769

原创 LTX-2: 高效联合视听基础模型

LTX-2是一款开源视听联合生成模型,采用140亿参数视频流和50亿参数音频流的双流变压器架构,通过交叉注意力层实现音视频同步生成。该模型支持多语言文本输入,采用创新的模态感知分类器自由引导机制,能生成包含语音、环境音和特效的完整音轨。评估显示其视听质量达到先进水平,计算成本显著低于商业模型。项目提供多种模型检查点、上采样器和控制LoRA,支持本地部署和高效推理。

2026-01-09 07:35:19 1149

原创 UltraShape 1.0: 高保真三维形状生成:基于可扩展几何优化

UltraShape 1.0是一个创新的三维扩散框架,采用两阶段流程生成高保真几何体:首先生成粗粒度结构,再进行细节优化。研究团队开发了完整的数据处理流程,包含水密处理和高质量数据过滤技术,显著提升了公开数据集的几何质量。通过将空间定位与几何细节合成解耦,并采用RoPE编码的体素级优化,实现了细粒度几何生成。实验证明该方法在数据处理和几何生成方面具有竞争力。项目已开源推理代码和预训练模型,训练代码也已发布。该工作基于Hunyuan3D-2.1和LATTICE的研究成果,为3D生成领域提供了新的技术方案。

2026-01-07 07:49:09 1026

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

2024-08-29

Grok-314B模型磁力链接

Grok-314B模型磁力链接

2024-03-18

retinanet-resnet50-fpn-coco-eeacb38b.pth

Imageai模型,RetinaNet (Size = 130 mb, high performance and accuracy, with longer detection time)

2023-01-12

image模型,tiny-yolov3.pt

image模型,(Size = 34 mb, optimized for speed and moderate performance, with fast detection time)

2023-01-12

image模型,yolov3.pt

image模型,YOLOv3 (Size = 237 mb, moderate performance and accuracy, with a moderate detection time)

2023-01-12

inception-v3-google-1a9a5a14.pth

ImageAI模型,InceptionV3 by Google Brain team (Size = 103 mb, slow prediction time and higher accuracy)

2023-01-12

densenet121-a639ec97

ImageAI模型,DenseNet121 by Facebook AI Research (Size = 30.8 mb, slower prediction time and highest accuracy)

2023-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除