自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1404)
  • 收藏
  • 关注

原创 【阿里拥抱开源】 Tongyi-MAI 团队开源 Z-Image:一种高效的单流扩散变换器图像生成基础模型

Z-图像是一款60亿参数的高效图像生成模型,包含极速版、基础版和编辑版三个版本。极速版支持亚秒级推理,适配消费级设备,擅长真实图像生成和双语文本渲染;基础版开放原始模型供社区开发;编辑版专精图像编辑任务。模型采用S3-DiT架构,实现高效参数利用。演示显示其具备照片级真实感、精准文本渲染和创意编辑能力。

2025-11-27 16:24:50 1556

原创 黑森林研究所最新推出更强大的FLUX.2生图扩散模型,实现更逼真的视觉效果

FLUX.2是新一代图像生成模型,在图像质量、细节呈现和创作灵活性方面实现突破性提升。该模型支持多参考图融合(最多10张)、400万像素高分辨率输出,显著优化了文字渲染、提示跟随和世界知识理解能力。黑森林实验室采用开源核心模式,提供从专业级API(FLUX.2 [pro])到开放权重模型(FLUX.2 [dev])的全系列产品。基于创新的潜在流匹配架构,FLUX.2整合了240亿参数视觉语言模型与修正流变压器,在图像生成与编辑任务中均展现领先性能,为创意工作流程提供强大支持。

2025-11-26 08:33:25 895

原创 黑森林实验室发布最新AI生图模型——FLUX.1-Krea-dev

FLUX.1 Krea [开发版]作为Krea 1的开源权重版本,在保持卓越性能的同时,呈现出极具辨识度的美学风格与超凡的真实质感。其训练目标旨在生成更真实多元的图像,有效解决了文生图领域普遍存在的色彩过度饱和问题。正因这些特质,我们称其为"有主张的"文生图模型——总能为用户带来视觉惊喜,呈现丰富多样的创意图像。

2025-08-02 07:41:14 2027

原创 ​黑森林实验室推出 FLUX.1Kontext:可通过文本和参考图像对图像进行多次修改

FLUX.1 Kontext推出创新情境化图像生成模型,支持文本和图像双重输入,实现无缝视觉概念编辑与生成。该模型在文本编辑和角色一致性方面表现卓越,推理速度比主流模型快8倍。性能测试显示FLUX.1 Kontext在美学质量、提示跟随等维度领先,但仍存在迭代编辑后图像质量下降等局限。开发者版本FLUX.1 Kontext [dev]将开放私有测试,供研究和安全测试使用。

2025-05-30 12:53:12 3177

原创 DeepSeek 更新 DeepSeek-R1-0528,性能强劲直追OpenAI o3

DeepSeek-R1-0528模型完成重要升级,在数学、编程和通用推理任务上表现显著提升。最新测试数据显示:AIME数学竞赛准确率从70%提升至87.5%,Codeforces编程竞赛评分从1530升至1930,HMMT数学竞赛通过率从41.7%跃升至79.4%。模型通过增加计算资源投入(单问题token消耗从12K增至23K)和算法优化实现了思维深度增强。同时发布的DeepSeek-R1-0528-Qwen3-8B衍生模型在AIME测试中达到开源模型SOTA水平。新版本还新增系统提示支持、降低幻觉率并优

2025-05-30 08:00:20 1972

原创 如何在Kaggle中使用miniconda

本文介绍了如何在Kaggle平台上使用Miniconda进行Python环境管理。首先,通过命令行检查Python版本(3.11.11),然后创建并安装Miniconda到指定目录。接着,使用Miniconda创建一个新的Python环境(conda_env),并指定Python版本为3.10。通过激活该环境,可以验证Python版本已切换至3.10.16。最后,演示了如何在激活的环境中安装numpy库。整个过程展示了如何在Kaggle中灵活管理不同的Python环境,以满足不同项目的需求。

2025-05-13 13:21:31 1249

原创 冲刺1w粉丝,感恩有你!CSDN,我们来了!

我们需要的互联网,不是一个能被随意关闭的垃圾桶,而是一个开放、自由、安全的空间。亚伦的故事提醒我们,互联网的未来不仅依赖于技术的进步,更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气,最终成功解决了问题,并将解决方案分享给了更多需要的人。还记得刚开始在CSDN分享技术文章时,我只是一个默默无闻的小白,怀揣着对技术的热爱,小心翼翼地敲下每一行代码,写下每一篇博客。那时的我,从未想过有一天,我的粉丝数会突破四位数,甚至向着1w的目标迈进!喜悦的是,我的努力得到了认可,我的分享帮助到了更多人;

2025-02-17 14:03:06 589

原创 【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1783 1

原创 【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 1947

原创 如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统,可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目,因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台,包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境,可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook,提供一系列功能,包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1848

原创 【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型,与之前的3.0版本相比,这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似,Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 3274

原创 Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。

2024-09-26 09:16:42 2670

原创 啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1482

原创 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 3215 1

原创 如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?,回答五花八门,可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:

2024-08-03 12:35:19 3223

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示,该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力,并拥有广泛的新功能,包括改进的推理能力,可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为,对于人工智能助手来说,最重要的产品将是它有多智能,”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示,“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础,令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 876

原创 大教堂和小集市正在AGI上上演

世界上的建筑可以分两种:一种是集市,天天开放在那里,从无到有,从小到大;还有一种是大教堂,几代人呕心沥血,几十年才能建成,投入使用。当你新建一座建筑时,你可以采用集市的模式,也可以采用大教堂的模式。一般来说,集市的特点是开放式建设、成本低、周期短、品质平庸;大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派:闭源企业派和开源自由派。但无论哪种形式,都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1227

原创 【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示,即将发布春季直播,而且也有很多媒体透露没有Sora,可能是AI Search等等,但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露,不是搜索引擎,而是GPT的优化。然而,OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 988

原创 大算力时代已经到来

计算机发展到现在,早已经历了大数据时代,而现如今国家也注意到国民大数据的重要性,而给予保护性条款和制度的建立。我觉得这只是早已注定的结局,但是未来该走向何方,着眼当下,我们互联网人早已身处在答案之中——大算力(Big Computing Power)时代。回顾2019年,Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年,区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然,许多3A大作也可以在4k画质下突破百帧。随后,AMD也在2

2022-08-06 17:58:32 1416

原创 一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷,许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中,总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗?答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里,权贵并不重要,更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下,计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 437 1

原创 【苹果拥抱开源】不到一秒实现锐利的单目视图合成

摘要:苹果研究团队提出SHARP方法,通过单张图像实现秒级高真实感视图合成。该方法利用神经网络快速回归3D高斯表征参数(GPU处理时间<1秒),支持实时渲染高分辨率图像,并具备度量级位移能力。实验显示SHARP在零样本场景中显著优于现有技术:LPIPS指标降低25-34%,DISTS降低21-43%,同时速度提升千倍。项目提供开源代码和预训练模型,支持3D高斯点云输出与轨迹渲染(需CUDA)。相关论文已发布于arXiv:2512.10685。

2025-12-23 07:07:47 72

原创 清华智谱开源GLM-4.7: 提升编码能力

GLM-4.7技术摘要 新一代编程智能体GLM-4.7在核心能力上实现显著突破: 编程性能提升:SWE-bench多语言版准确率提升12.9%,Terminal Bench 2.0性能增长16.5%,支持"三思而后行"模式优化复杂任务处理 多维度增强: 工具调用能力在τ²-Bench达87.4%准确率 数学推理(HLE基准)提升至42.8% 支持持久化思考模式,实现多轮对话一致性 部署支持:兼容vLLM/SGLang推理框架,提供官方Docker镜像 基准对比:在17项测试中超越GLM-

2025-12-23 07:01:15 354

原创 【腾讯拥抱开源】HY-World 1.5:具有实时延迟与几何一致性的交互式世界建模系统框架

HY-World 1.5:实时交互式世界建模框架突破 腾讯混元团队推出的HY-World 1.5系统实现了三大突破性进展: 实时流式生成:通过创新的WorldPlay架构,以24FPS速度生成长期几何一致的视频流,解决了传统离线建模的延迟问题 四大核心技术: 双重动作表征实现精准控制 动态记忆重组技术防止长期衰减 世界罗盘RL框架提升动作跟随性 上下文强制蒸馏保持远程一致性 全流程开源:完整公开了从数据准备到推理部署的工业化训练框架,支持自定义相机轨迹生成,兼容多种视角和风格化场景。该系统在重建指标和人工评

2025-12-22 07:31:19 589

原创 【阿里拥抱开源】Qwen Image团队开源图像分解模型——Qwen-Image-Layered

我们很高兴推出Qwen-Image-Layered模型,该模型能够将图像分解为多个RGBA图层。这种分层表示解锁了内在可编辑性:每个图层可以独立操作而不影响其他内容。同时,这种分层表示天然支持高保真基础操作——例如调整大小、重新定位和重新着色。通过将语义或结构组件物理隔离到不同图层中,我们的方法实现了高保真且一致的编辑。

2025-12-22 07:20:27 304

原创 QwenLong-L1.5: 长上下文推理与记忆管理的训练后方案

本文介绍了QwenLong-L1.5长文本推理模型,基于Qwen3-30B-A3B-Thinking构建,通过创新的训练后方案提升了长文本处理能力。主要贡献包括:1) 开发了多跳信息推理的数据合成流程;2) 提出自适应熵控策略优化算法(AEPO)等强化学习方法;3) 设计了记忆管理框架处理超长文本。评估显示该模型在长文本基准上提升9.9分,达到GPT-5等顶尖模型水平,并增强了数学、工具使用等通用能力。文章提供了快速使用指南和开源信息。

2025-12-18 07:07:51 757

原创 【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash

MiMo-V2-Flash 是一款3090亿参数的专家混合模型(MoE),激活参数仅150亿,专为高效推理和智能体任务优化。其创新架构结合混合注意力(5:1的SWA/GA比例)和多词元预测(MTP),在降低6倍KV缓存的同时支持256k上下文。模型通过FP8混合精度预训练27T词元,并在SWE-Bench等任务中表现优异,基础版本在MMLU(86.7)、GSM8K(92.3)等基准超越更大参数模型。提供Base和完整版下载,开源3层MTP权重以促进研究。 (字数:149)

2025-12-17 07:50:12 1180

原创 字节开源Dolphin-v2: 基于异构锚点提示的文档图像解析

Dolphin-v2是一款升级版通用文档解析模型,采用双阶段架构和锚点提示技术,可处理数字文档和拍摄图像。该模型通过文档类型分类和混合解析策略(整体解析+并行元素解析),在文本、公式、表格等元素解析任务中表现优异。最新版本支持21种元素检测、多页PDF解析,并在OmniDocBench测试中达到89.78的综合评分。提供页面级和元素级两种解析粒度,支持TensorRT-LLM加速推理。

2025-12-16 07:28:39 730

原创 消费级显卡也能跑清华智谱的GLM-4.6V啦

GLM-4.6V是GLM-V系列的最新一代多模态模型,包含1060亿参数的基础版和90亿参数的轻量版(GLM-4.6V-Flash)。该模型通过128K上下文窗口和原生函数调用能力,实现了视觉感知与执行动作的无缝衔接,支持交错式图文生成、多模态文档理解和前端视觉编辑等任务。关键创新包括直接处理图像输入、动态调用工具以及生成混合媒体内容。模型在Hugging Face开源,提供Transformers和vLLM等推理支持,但仍存在文本QA能力不足、重复输出等局限。相关资源包括技术博客、论文、GitHu

2025-12-15 07:30:00 852

原创 清华智谱开源GLM-TTS: 可控且富有情感表达的零样本文本转语音

GLM-TTS是基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音标记的大语言模型(LLM)和用于波形合成的流匹配模型。

2025-12-11 10:41:30 940

原创 Mistral AI 开源一款专为软件工程任务设计的智能大语言模型——Devstral 2 123B Instruct 2512

Devstral 2 123B Instruct 2512是一款专为软件工程优化的AI模型,在SWE-bench测试中表现优异(72.2%准确率)。该FP8精调模型支持256k超长上下文,特别适合智能编码、多文件编辑等任务。配套工具Mistral Vibe CLI可实现终端直接调用,同时支持vLLM等多种部署方式。与同类模型相比,Devstral 2在保持较小参数量(123B)的同时,性能接近甚至超过部分更大规模的竞争对手模型。

2025-12-11 07:23:27 1328

原创 清华智谱开源首个语音识别模型——GLM-ASR-Nano-2512

GLM-ASR-Nano-2512是一款1.5B参数的开源语音识别模型,在方言支持、低音量识别等方面表现优异。该模型超越OpenAI Whisper V3,在Wenet Meeting、Aishell-1等基准测试中达到最低4.10的平均错误率,尤其擅长处理复杂声学环境。模型支持标准普通话、英语及粤语等方言,并对低音量语音具有独特识别能力。现已开源并提供Hugging Face和ModelScope下载,可通过transformers库轻松集成。项目代码托管于GitHub,提供完整推理示例。

2025-12-10 16:03:57 553

原创 清华智谱开源 GLM-4.6V——新一代基于可扩展强化学习的通用多模态推理

GLM-4.6V系列模型在多模态推理领域取得重要突破,包含1060亿参数的基础版和90亿参数的轻量版。该模型创新性地集成了原生多模态函数调用能力,支持128K tokens上下文窗口,实现了从视觉感知到可执行动作的闭环。核心功能包括:交错图文内容生成、多模态文档理解、前端复现与视觉编辑。评测显示其在多模态基准测试中达到SoTA性能,但仍有纯文本QA能力不足、思维重复等问题待改进。模型已开源,提供Transformers、vLLM等多种部署方式,适用于云端和本地场景。相关技术细节可参考论文和GitHub代码库

2025-12-09 07:30:00 2131 1

原创 美团龙猫开源6B图片编辑模型——LongCat-Image-Edit

LongCat-Image-Edit是一款支持中英双语的开源图像编辑模型,具备卓越的指令跟随能力和图像质量。其核心优势包括精准编辑(全局/局部/文本修改/参考引导)、出色的视觉一致性保持(非编辑区域属性稳定),以及高效的推理性能(开源模型中的SOTA表现)。用户可通过简单安装步骤快速部署,并利用提供的Pipeline实现多样化图像编辑任务。模型及代码已开源,适用于多轮复杂编辑场景。 关键词: 图像编辑、开源模型、指令跟随、视觉一致性、SOTA性能

2025-12-08 07:42:37 357

原创 美团龙猫开源6B文生图模型——LongCat-Image

LongCat-Image是一款高效开源的双语图像生成模型,仅60亿参数就在多项基准测试中超越更大规模的开源模型。其核心优势包括出色的中文文本渲染能力、高写实图像生成效果,以及优化的部署效率。该模型通过创新的数据策略和训练框架,显著提升了中文字符渲染准确性和图像真实感。开发者可通过简单安装快速体验文本到图像的生成功能,支持自定义参数调整以获得更优效果。LongCat-Image为多语言图像生成提供了高效可靠的解决方案。

2025-12-08 07:34:30 635

原创 iMontage: 统一、多功能、高度动态的多对多图像生成

iMontage是一个创新的图像生成框架,通过引入类视频的运动先验,能够将多张输入图片转化为具有连贯动态效果的视觉输出。该模型支持灵活输入(≤4张图片)和输出(≤4帧),具备高动态性、一致性以及跨异构任务的强指令跟随能力。 核心功能: 支持图像编辑、角色/风格参考生成、多视图生成等多样化任务 实现类视频的时间连贯性,适用于非视频图像集 提供开源推理代码与预训练模型权重

2025-12-05 14:35:06 655

原创 微软开源VibeVoice-Realtime:轻量级实时TTS模型

VibeVoice-Realtime是一款轻量级实时文本转语音模型,具备5亿参数,专为流式输入设计。其核心优势在于仅300毫秒的初始延迟和稳健的长文本处理能力,采用交错式窗口化架构结合扩散式声学生成技术。模型基于Qwen2.5-0.5B框架,集成高效声学分词器(7.5Hz帧率)和轻量扩散头,支持8K上下文长度。在LibriSpeech和SEED测试中表现优异(WER约2%,相似度0.63+),适用于英语实时TTS场景,但仅支持单说话人。该研究型模型需遵循许可条款使用,完整技术细节见项目主页和arXiv报告。

2025-12-05 11:45:42 1270

原创 Nvidia团队发布《ToolOrchestra:通过高效模型与工具编排提升智能》

在"人类终极考试"中,Orchestrator-8B以37.1%的得分超越GPT-5(35.1%),仅消耗30%的成本且速度快2.5倍。在Humanity’s Last Exam(HLE)基准测试中,ToolOrchestrator-8B以37.1%的得分表现优于GPT-5(35.1%),同时效率提升了约2.5倍。Orchestrator-8B在HLE基准测试中持续超越GPT-5、Claude Opus 4.1和Qwen3-235B-A22B,同时显著降低成本。该模型仅供研发使用。

2025-12-03 10:42:49 1060

原创 隆重推出Mistral 3——新一代开放式多模态多语言人工智能

Mistral发布新一代开源AI模型系列Mistral 3,包含410亿参数的Mistral Large 3稀疏混合专家模型和30-140亿参数的Ministral 3边缘模型。所有模型基于Apache 2.0许可证开源,支持多模态和多语言能力。Mistral Large 3在开源指令微调模型中表现领先,Ministral系列则以最佳性价比著称。通过与NVIDIA、vLLM等合作优化了模型部署方案,支持从数据中心到边缘设备的高效运行。Mistral还为企业提供定制化模型训练服务。该系列重新定义了开源AI的可

2025-12-03 10:33:01 1268

原创 Step-Audio-R1 首个成功实现测试时计算扩展的音频语言模型

Step-Audio-R1是首个实现测试时计算扩展的音频语言模型,解决了传统模型因文本替代推理导致的"逆向扩展"问题。通过模态基础推理蒸馏(MGRD)方法,该模型将推理焦点转向声学分析,性能超越Gemini 2.5 Pro,媲美Gemini 3。模型基于Qwen2音频编码器和Qwen2.5 32B解码器,支持Docker或定制vLLM部署,需4×L40S/H100级GPU,提供完整的开源实现与预训练权重下载。

2025-12-02 13:15:18 885

原创 幻方量化开源DeepSeek-V3.2-Speciale,更超越GPT-5,推理能力与Gemini-3.0-Pro持平

我们还发布了2025年国际信息学奥林匹克(IOI)、ICPC全球总决赛、2025年国际数学奥林匹克(IMO)以及中国数学奥林匹克(CMO)的最终提交材料,这些材料均基于我们设计的流程筛选而出。DeepSeek-V3.2和DeepSeek-V3.2-Speciale的模型结构与DeepSeek-V3.2-Exp相同。文件夹,内含Python脚本与测试用例,演示如何将OpenAI兼容格式的消息编码为模型输入字符串,并解析模型的文本输出。模型,该模型实现了高计算效率与卓越推理及智能体性能的完美平衡。

2025-12-02 07:30:00 1154

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

2024-08-29

Grok-314B模型磁力链接

Grok-314B模型磁力链接

2024-03-18

retinanet-resnet50-fpn-coco-eeacb38b.pth

Imageai模型,RetinaNet (Size = 130 mb, high performance and accuracy, with longer detection time)

2023-01-12

image模型,tiny-yolov3.pt

image模型,(Size = 34 mb, optimized for speed and moderate performance, with fast detection time)

2023-01-12

image模型,yolov3.pt

image模型,YOLOv3 (Size = 237 mb, moderate performance and accuracy, with a moderate detection time)

2023-01-12

inception-v3-google-1a9a5a14.pth

ImageAI模型,InceptionV3 by Google Brain team (Size = 103 mb, slow prediction time and higher accuracy)

2023-01-12

densenet121-a639ec97

ImageAI模型,DenseNet121 by Facebook AI Research (Size = 30.8 mb, slower prediction time and highest accuracy)

2023-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除