自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1494)
  • 收藏
  • 关注

原创 【DeepSeek V4终于来了】DeepSeek-V4: 迈向高效百万令牌上下文智能

DeepSeek推出全新DeepSeek-V4系列预览版,包含两款混合专家(MoE)模型:1.6万亿参数的DeepSeek-V4-Pro(激活490亿)和2840亿参数的DeepSeek-V4-Flash(激活130亿)。该系列在架构上实现多项创新:混合注意力机制提升长上下文处理效率,流形约束超连接增强模型稳定性,并采用新型μ子优化器加速训练。经过32万亿token预训练,模型在知识、推理、编程等多项基准测试中表现优异,其中Pro版本在复杂任务上尤为突出。提供不同参数规模的Base和指令版本下载,支持百万t

2026-04-24 13:56:40 715

原创 【阿里拥抱开源】Qwen团队开源Qwen-Image-2512

Qwen-Image-2512是通义千问推出的文生图模型12月升级版,在人物真实感、自然细节和文字渲染三大方面实现显著提升。该版本通过增强面部细节、优化发丝纹理等处理,大幅降低AI生成痕迹;同时提升了风景、动物等自然元素的精细度,并改进了画面中文字的排版准确性。官方测试显示,Qwen-Image-2512是目前最强的开源文生图模型,性能媲美闭源产品。用户可通过Hugging Face的diffusers库快速调用模型,支持多种比例输出。对比8月版本,新模型在人物肤质、环境背景等方面均有质的飞跃,使生成图像更

2026-01-05 07:30:00 1775

原创 【阿里拥抱开源】 Tongyi-MAI 团队开源 Z-Image:一种高效的单流扩散变换器图像生成基础模型

Z-图像是一款60亿参数的高效图像生成模型,包含极速版、基础版和编辑版三个版本。极速版支持亚秒级推理,适配消费级设备,擅长真实图像生成和双语文本渲染;基础版开放原始模型供社区开发;编辑版专精图像编辑任务。模型采用S3-DiT架构,实现高效参数利用。演示显示其具备照片级真实感、精准文本渲染和创意编辑能力。

2025-11-27 16:24:50 1781

原创 黑森林研究所最新推出更强大的FLUX.2生图扩散模型,实现更逼真的视觉效果

FLUX.2是新一代图像生成模型,在图像质量、细节呈现和创作灵活性方面实现突破性提升。该模型支持多参考图融合(最多10张)、400万像素高分辨率输出,显著优化了文字渲染、提示跟随和世界知识理解能力。黑森林实验室采用开源核心模式,提供从专业级API(FLUX.2 [pro])到开放权重模型(FLUX.2 [dev])的全系列产品。基于创新的潜在流匹配架构,FLUX.2整合了240亿参数视觉语言模型与修正流变压器,在图像生成与编辑任务中均展现领先性能,为创意工作流程提供强大支持。

2025-11-26 08:33:25 1307

原创 黑森林实验室发布最新AI生图模型——FLUX.1-Krea-dev

FLUX.1 Krea [开发版]作为Krea 1的开源权重版本,在保持卓越性能的同时,呈现出极具辨识度的美学风格与超凡的真实质感。其训练目标旨在生成更真实多元的图像,有效解决了文生图领域普遍存在的色彩过度饱和问题。正因这些特质,我们称其为"有主张的"文生图模型——总能为用户带来视觉惊喜,呈现丰富多样的创意图像。

2025-08-02 07:41:14 2174

原创 ​黑森林实验室推出 FLUX.1Kontext:可通过文本和参考图像对图像进行多次修改

FLUX.1 Kontext推出创新情境化图像生成模型,支持文本和图像双重输入,实现无缝视觉概念编辑与生成。该模型在文本编辑和角色一致性方面表现卓越,推理速度比主流模型快8倍。性能测试显示FLUX.1 Kontext在美学质量、提示跟随等维度领先,但仍存在迭代编辑后图像质量下降等局限。开发者版本FLUX.1 Kontext [dev]将开放私有测试,供研究和安全测试使用。

2025-05-30 12:53:12 3337

原创 DeepSeek 更新 DeepSeek-R1-0528,性能强劲直追OpenAI o3

DeepSeek-R1-0528模型完成重要升级,在数学、编程和通用推理任务上表现显著提升。最新测试数据显示:AIME数学竞赛准确率从70%提升至87.5%,Codeforces编程竞赛评分从1530升至1930,HMMT数学竞赛通过率从41.7%跃升至79.4%。模型通过增加计算资源投入(单问题token消耗从12K增至23K)和算法优化实现了思维深度增强。同时发布的DeepSeek-R1-0528-Qwen3-8B衍生模型在AIME测试中达到开源模型SOTA水平。新版本还新增系统提示支持、降低幻觉率并优

2025-05-30 08:00:20 2159

原创 如何在Kaggle中使用miniconda

本文介绍了如何在Kaggle平台上使用Miniconda进行Python环境管理。首先,通过命令行检查Python版本(3.11.11),然后创建并安装Miniconda到指定目录。接着,使用Miniconda创建一个新的Python环境(conda_env),并指定Python版本为3.10。通过激活该环境,可以验证Python版本已切换至3.10.16。最后,演示了如何在激活的环境中安装numpy库。整个过程展示了如何在Kaggle中灵活管理不同的Python环境,以满足不同项目的需求。

2025-05-13 13:21:31 1365

原创 冲刺1w粉丝,感恩有你!CSDN,我们来了!

我们需要的互联网,不是一个能被随意关闭的垃圾桶,而是一个开放、自由、安全的空间。亚伦的故事提醒我们,互联网的未来不仅依赖于技术的进步,更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气,最终成功解决了问题,并将解决方案分享给了更多需要的人。还记得刚开始在CSDN分享技术文章时,我只是一个默默无闻的小白,怀揣着对技术的热爱,小心翼翼地敲下每一行代码,写下每一篇博客。那时的我,从未想过有一天,我的粉丝数会突破四位数,甚至向着1w的目标迈进!喜悦的是,我的努力得到了认可,我的分享帮助到了更多人;

2025-02-17 14:03:06 630

原创 【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1874 1

原创 【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 2077

原创 如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统,可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目,因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台,包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境,可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook,提供一系列功能,包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1956

原创 【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型,与之前的3.0版本相比,这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似,Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 3584

原创 Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。

2024-09-26 09:16:42 2753

原创 啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1524

原创 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 3467 1

原创 如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?,回答五花八门,可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:

2024-08-03 12:35:19 3368

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示,该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力,并拥有广泛的新功能,包括改进的推理能力,可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为,对于人工智能助手来说,最重要的产品将是它有多智能,”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示,“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础,令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 1000

原创 大教堂和小集市正在AGI上上演

世界上的建筑可以分两种:一种是集市,天天开放在那里,从无到有,从小到大;还有一种是大教堂,几代人呕心沥血,几十年才能建成,投入使用。当你新建一座建筑时,你可以采用集市的模式,也可以采用大教堂的模式。一般来说,集市的特点是开放式建设、成本低、周期短、品质平庸;大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派:闭源企业派和开源自由派。但无论哪种形式,都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1254

原创 【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示,即将发布春季直播,而且也有很多媒体透露没有Sora,可能是AI Search等等,但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露,不是搜索引擎,而是GPT的优化。然而,OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 1026

原创 大算力时代已经到来

计算机发展到现在,早已经历了大数据时代,而现如今国家也注意到国民大数据的重要性,而给予保护性条款和制度的建立。我觉得这只是早已注定的结局,但是未来该走向何方,着眼当下,我们互联网人早已身处在答案之中——大算力(Big Computing Power)时代。回顾2019年,Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年,区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然,许多3A大作也可以在4k画质下突破百帧。随后,AMD也在2

2022-08-06 17:58:32 1459

原创 一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷,许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中,总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗?答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里,权贵并不重要,更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下,计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 464 1

原创 【SIGGRAPH 2026】Pixal3D: 基于图像的像素对齐三维生成

Pixal3D:高保真单图3D生成框架 Pixal3D通过创新的反向投影技术,将2D图像像素特征直接映射到3D空间,实现精细几何结构和PBR材质的高质量重建。该框架采用三级级联训练策略(32→64→256→512→1024分辨率),支持从稀疏结构到纹理的渐进式优化。项目提供完整的训练/推理工具链,包括: 基于Trellis.2的改进模型 低显存推理模式 Gradio网页演示 多阶段训练流程 ObjaverseXL数据集支持 用户可通过Hugging Face在线体验或本地部署,快速生成GLB格式3D资产。代

2026-05-18 08:40:13 293

原创 MiniCPM-V4.6:一款手机端超高效图像与视频理解的袖珍多模态大语言模型

摘要: MiniCPM-V 4.6是一款高效边缘部署的多模态模型,基于SigLIP2-400M和Qwen3.5-0.8B构建,具备强大的图像/视频理解能力。其创新性4x/16x混合视觉令牌压缩技术显著提升计算效率,在多项基准测试中超越同类模型,甚至优于更大规模的Ministral 3 3B。支持iOS、Android和HarmonyOS全平台部署,并提供多种量化版本与开发者工具链(如vLLM/SWIFT)。模型通过Flash Attention 2加速,视觉编码计算量降低超50%,吞吐量达Qwen3.5-0

2026-05-13 12:34:52 430

原创 HiDream-ai开源Transformer架构(UiT)的原生统一图像生成基础模型——HiDream-O1-Image

HiDream-O1-Image是一款基于像素级统一Transformer架构(UiT)的开源图像生成模型,支持2048×2048高分辨率文生图、图像编辑和主体驱动个性化生成。该模型无需外部VAE或独立文本编码器,直接在共享标记空间内处理原始像素和文本。核心特点包括:端到端像素级训练、多任务统一架构、内置提示代理工具和高效8B参数规模。在多项基准测试中表现优异,尤其在组合生成和密集提示对齐任务上达到领先水平。2026年5月开源后,提供标准版和优化版(Dev)两种变体,用户可通过Hugging Face在线体

2026-05-11 08:49:02 523

原创 【阿里拥抱开源】LLaDA2.0-Uni: 利用扩散大语言模型统一多模态理解与生成

摘要: LLaDA2.0-Uni 是由 Inclusion AI 研发的统一多模态扩散大语言模型,基于混合专家(MoE)架构,整合了文本与图像的生成、理解及编辑能力。该模型通过 SigLIP-VQ 离散语义分词器实现高效视觉编码,并采用专用扩散解码器支持高保真图像生成(8步快速推理)。核心功能包括:文本到图像生成(可选思维推理过程)、视觉问答、指令驱动的图像编辑及交错生成与推理。评测显示其在多模态任务中性能优异。开发者可通过开源代码快速部署,支持 CUDA 加速与 Flash Attention 优化,提供

2026-05-06 07:00:21 408

原创 重磅|Mistral Medium 3.5 正式开源,能力全面升级

Mistral Medium 3.5是Mistral AI推出的旗舰级融合模型,拥有1280亿密集参数和256k上下文窗口。这款统一架构模型在指令跟随、推理和编程任务上表现卓越,将取代前代产品Mistral Medium 3.1和Magistral。其核心特性包括多模态输入支持、可配置推理强度、多语言能力和强大的代理功能。在基准测试中,该模型在编码代理任务上取得91.4%的电信测试分数和77.6%的SWE-Bench验证分数,显著超越前代产品。支持通过vLLM、Transformers等多种方式部署,并提供

2026-05-05 07:09:10 442

原创 【阿里拥抱开源】Ling-2.6-flash: 更快响应,更强执行,更高令牌效率

Ling-2.6-flash开源:1040亿参数的高效智能体模型 Ling-2.6-flash是一个总参数量1040亿、激活参数量74亿的指令微调模型,专为解决智能体应用中token消耗暴涨问题而设计。该模型采用混合线性架构,在4×H20配置下推理速度可达340 tokens/秒,并通过token效率优化实现智能-效能平衡。在BFCL-V4、TAU2-bench等智能体基准测试中表现优异,同时保持通用知识、数学推理等能力。模型采用1:7 MLA + Lightning Linear混合注意力机制,预填充和解

2026-04-30 05:48:39 575

原创 【阿里拥抱开源】Ling-2.6-1T: 万亿参数综合旗舰模型,应对复杂任务

灵族系列开源万亿参数模型Ling-2.6-1T,专为复杂场景优化设计。该模型融合MLA与线性注意力架构,显著提升推理效率,并引入"快思考"机制降低token开销。在编程与工作流应用中表现突出,支持多工具智能体集成,在SWE-bench等基准测试中达到开源SOTA水平。提供SGLang和vLLM两种部署方式,支持长文本处理与高效推理。未来将重点优化知识密集型任务和长程一致性能力。模型遵循MIT许可协议。

2026-04-30 05:40:32 662

原创 【小米拥抱开源】Agent 时代新标杆:小米 MiMo-V2.5-Pro 与 MiMo-V2.5 正式开源,赋能全场景 AI 开发

小米MiMo-V2.5-Pro是一款开源的万亿参数专家混合(MoE)语言模型,具有420亿激活参数和100万token的上下文窗口。该模型采用混合注意力架构(滑动窗口与全局注意力6:1交替)和三层多token预测技术,在长上下文任务中表现出色。支持FP8混合精度训练,已在27T token上完成预训练,并通过监督微调、强化学习和多教师蒸馏优化智能体能力。评测显示,该模型在数学、代码和中文任务上表现优异,尤其在100万token长上下文任务中保持良好性能。提供基础版和完整版下载,适用于复杂软件工程和长周期任务

2026-04-28 07:23:11 629

原创 【阿里拥抱开源】LingBot-Map:用于流式3D重建的几何上下文转换器

LingBot-Map是一个用于流式3D重建的前馈3D基础模型,通过几何上下文变换器统一坐标定位、几何线索和漂移校正。其特点包括:采用分页KV缓存实现高效推理(20 FPS/10,000+帧);支持多种输入模式(图像/视频流);提供长序列优化方案(关键帧间隔/窗口化推理);集成天空分割提升户外场景质量。模型提供HuggingFace/ModelScope下载,采用Apache 2.0许可证,在多样化基准测试中表现优于现有方法。该技术基于Transformer架构,结合了VGGT、DINOv2等先进成果,适用

2026-04-24 07:02:53 589

原创 【阿里拥抱开源】千问开源Qwen3.6-27B,并配上调参参考

Qwen3.6发布首个开源权重版本,带来270亿参数语言模型的重大升级。该版本聚焦开发者体验,在智能体编程(SWE-bench验证准确率达77.2%)和思维持久化方面实现突破,支持26万tokens上下文并支持扩展。基准测试显示其在编程(QwenWebBench得分1487)、知识推理(MMLU-Pro 86.2)和视觉语言任务(MMMU 82.9)上的优异表现。模型采用创新架构设计,包含门控DeltaNet和注意力机制,兼容主流推理框架,为开发者提供高效的API集成方案。

2026-04-23 07:45:50 949

原创 深夜重磅:Kimi K2.6 正式开源,对标 GPT-5.4/Opus 4.6

Kimi K2.6是一款开源多模态智能体模型,在编码、推理和视觉任务上表现突出。该模型采用混合专家架构,具有1万亿参数和25.6万词元上下文长度。评估显示,K2.6在长周期编码、编码驱动设计、智能体集群协作等方面超越前代K2.5,并在多项基准测试中接近或超过GPT-5.4、Claude Opus 4.6等主流模型。核心优势包括跨语言编码能力、视觉到界面的自动生成、支持300个智能体协同执行复杂任务等。测试采用262,144词元上下文,在工具增强任务中展现出强大的自主执行能力。

2026-04-21 08:16:42 795

原创 【阿里拥抱开源】千问开源Qwen3.6-35B-A3B,并配上调参参考

Qwen3.6发布全新开源模型,带来多项重大升级:在编程智能体方面显著提升SWE-bench验证能力至73.4分,终端基准测试达51.5分;知识领域保持优异表现,MMLU-Pro达85.2分;STEM推理能力突出,IMO数学竞赛达78.9分。多模态方面,MMMU视觉问答81.7分,文档理解OmniDocBench1.5接近90分。新版本优化了上下文处理(支持26万token)和混合专家系统(256专家并行),特别强化了代码生成与视觉文本识别能力,为开发者提供更高效的AI编程体验。

2026-04-17 08:15:02 1436 1

原创 【百度拥抱开源】百度开源自家文生图模型——文心一格

ERNIE-Image是百度开发的文生图模型,基于单流扩散Transformer架构,具有以下特点: 高效轻量:仅80亿参数,在消费级GPU可运行 精准控制:擅长复杂指令跟随、文字渲染和结构化图像生成 多样化风格:支持写实摄影、设计导向图像及风格化美学输出 两个版本: ERNIE-Image:精调模型,通用能力强 ERNIE-Image-Turbo:优化版本,8步快速推理 模型在GENEval和OneIG基准测试中表现优异,特别适合商业海报、漫画创作等需要精确控制的内容生产场景。

2026-04-15 15:03:31 472

原创 【小米拥抱开源】MiMo团队开源一款强大的跨具身视觉语言模型——MiMo-Embodied-7B

MiMo-Embodied是一款突破性的跨领域视觉语言模型,在具身智能和自动驾驶领域展现出卓越性能。作为首个开源整合这两大领域的模型,它在17项具身智能评测(包括任务规划、功能预测和空间理解)和12项自动驾驶评测(涵盖环境感知、状态预测和驾驶规划)中均取得领先成绩,性能媲美闭源模型。该模型不仅保持强大的通用视觉理解能力,还通过专项训练强化了领域特性,在现实世界的导航、操控等任务中表现出色。可视化案例展示了模型在复杂场景中的精准理解和规划能力。

2026-04-14 07:47:26 206

原创 彻底开源!MiniMax-M2.7 开放权重,但禁止任何商业性使用

MiniMax-M2.7是首个具备自我进化能力的AI模型,通过自主迭代优化实现了30%的性能提升。该模型在专业软件工程领域表现突出,能快速处理生产事故,在SWE-Pro测试中达到56.22%得分。M2.7还支持智能体团队协作,在Toolathon测试中取得46.3%准确率,接近行业顶尖水平。模型提供多种部署方式,包括SGLang、vLLM和Transformers等框架,推荐使用temperature=1.0、top_p=0.95等参数以获得最佳性能。开发者可通过HuggingFace或ModelScope

2026-04-13 07:00:00 439

原创 【腾讯拥抱开源】MotionCrafter: 使用4D变分自编码器进行密集几何与运动重建

MotionCrafter:首个基于视频扩散的4D几何与运动联合重建框架 摘要:MotionCrafter是一个创新框架,能够从单目视频输入中同步重建4D几何并估计稠密物体运动。该框架无需后优化处理,直接在共享世界坐标系中预测每帧的稠密点云图和场景流。项目提供完整的训练流程,包括几何变分自编码器训练、统一4D VAE训练以及Diffusion Unet模型训练。支持两种模型类型(determ/diff)和可视化功能,并提供了完整的评估流程与指标定义。该项目基于GeometryCrafter实现,相关成果已发

2026-04-10 12:41:00 223

原创 字节跳动开源首个时间序列基础模型——Timer-S1

Timer-S1是一个83亿参数的时间序列基础模型,采用纯解码器混合专家(MoE)架构,支持11,520的超长上下文窗口。该模型通过创新的TimeSTP技术实现串行多步预测,在GIFT-Eval基准测试中展现了领先的中长期预测性能。特别值得注意的是其零样本预测能力,无需针对特定数据集训练即可直接预测不同分位数水平。模型经过持续预训练和长上下文扩展优化,激活参数仅7.5亿,支持GPU高效运行。Timer-S1开源采用Apache-2.0许可,为时间序列分析提供了强大的基础模型解决方案。

2026-04-10 06:34:36 268

原创 【腾讯拥抱开源】HY-Embodied-0.5:现实世界智能体的具身基础模型家族

腾讯发布HY-Embodied-0.5基础模型套件,专为实体智能体设计。该模型采用混合专家Transformer架构(MoT),包含20亿和320亿参数两个版本,在时空视觉感知和具身推理方面实现突破。20亿参数模型在16个基准测试中超越同规模最优模型,32B版本性能可比肩Gemini 3.0 Pro。模型基于超1亿条实体空间数据和2000亿token语料训练,能无缝集成至视觉-语言-行动框架,作为机器人控制的核心认知引擎。目前已开源模型权重和推理代码,支持Transformers快速部署。

2026-04-09 09:49:18 779

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

2024-08-29

Grok-314B模型磁力链接

Grok-314B模型磁力链接

2024-03-18

retinanet-resnet50-fpn-coco-eeacb38b.pth

Imageai模型,RetinaNet (Size = 130 mb, high performance and accuracy, with longer detection time)

2023-01-12

image模型,tiny-yolov3.pt

image模型,(Size = 34 mb, optimized for speed and moderate performance, with fast detection time)

2023-01-12

image模型,yolov3.pt

image模型,YOLOv3 (Size = 237 mb, moderate performance and accuracy, with a moderate detection time)

2023-01-12

inception-v3-google-1a9a5a14.pth

ImageAI模型,InceptionV3 by Google Brain team (Size = 103 mb, slow prediction time and higher accuracy)

2023-01-12

densenet121-a639ec97

ImageAI模型,DenseNet121 by Facebook AI Research (Size = 30.8 mb, slower prediction time and highest accuracy)

2023-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除