自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1200)
  • 资源 (7)
  • 收藏
  • 关注

原创 冲刺1w粉丝,感恩有你!CSDN,我们来了!

我们需要的互联网,不是一个能被随意关闭的垃圾桶,而是一个开放、自由、安全的空间。亚伦的故事提醒我们,互联网的未来不仅依赖于技术的进步,更依赖于每个人的觉醒与行动。是你们的留言给了我坚持下去的勇气,最终成功解决了问题,并将解决方案分享给了更多需要的人。还记得刚开始在CSDN分享技术文章时,我只是一个默默无闻的小白,怀揣着对技术的热爱,小心翼翼地敲下每一行代码,写下每一篇博客。那时的我,从未想过有一天,我的粉丝数会突破四位数,甚至向着1w的目标迈进!喜悦的是,我的努力得到了认可,我的分享帮助到了更多人;

2025-02-17 14:03:06 473

原创 【Nividia开源世界模拟器组件】Cosmos Tokenizer: 一套图像和视频神经标记器

我们介绍的英伟达 Cosmos 令牌生成器是一套图像和视频令牌生成器,它推动了可视化令牌生成技术的发展,为可扩展、稳健、高效地开发大型自动回归变换器(如 LLM)或扩散生成器铺平了道路。Cosmos Tokenizer 是英伟达 Cosmos 的核心组件,Cosmos 是一个开发人员优先的视频基础模型平台,旨在帮助物理人工智能开发人员更好、更快地构建他们的物理人工智能系统。给定一幅图像或视频,宇宙标记器输出连续潜像或离散标记。

2025-01-07 17:10:29 1599 1

原创 【Nvidia开源世界模拟器】Cosmos-1.0-Diffusion:基于扩散的世界基础模型套件

在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。

2025-01-07 16:58:16 1667

原创 如何使用 condacolab 为 Google Colab 安装 Conda 软件包

Conda 是一种流行的开源软件包管理系统,可以让你轻松地安装、管理和更新项目的软件包和依赖项。它常用于数据科学和机器学习项目,因为它提供了一种管理不同版本软件包和依赖项的简单方法。Conda 适用于不同的平台,包括 Windows、macOS 和 Linux。Google Colab 是一个基于云的笔记本环境,可以让你在浏览器中编写和执行 Python 代码。它基于 Jupyter Notebook,提供一系列功能,包括访问 GPU 和 TPU 等强大的硬件资源。

2024-12-10 14:30:35 1248

原创 【AI绘画重磅开源】Stable Diffusion 3.5 Large 和 Large Turbo 让任何人都拥有商业模型的快乐

Stable Diffusion 3.5模型发布,图像生成更真实,性能提升,并专注于多样化输出和易用性。StabilityAI昨天发布了其全新的Stable Diffusion 3.5系列 AI 图像模型,与之前的3.0版本相比,这次升级显著提高了图像的逼真度、对提示的响应能力以及文本渲染效果。与 SD3.0 类似,Stable Diffusion 3.5有三个版本——大型版 (8B)、大型加速版 (8B Turbo) 和中型版 (2.6B)。

2024-10-25 09:23:40 2670

原创 Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。

2024-09-26 09:16:42 2483

原创 啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

2024-09-13 08:16:23 1426

原创 【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

2024-08-04 09:26:03 2804 1

原创 如何快速下载huggingface大模型

Stackoverflow 上有个AI开发入门的最常见问题 How to download model from huggingface?,回答五花八门,可见下载 huggingface 模型的方法是十分多样的。其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:

2024-08-03 12:35:19 2747

原创 Meta推出全新大语言模型“Llama 3.1”

Meta公司高管表示,该模型主要用于为Meta公司内部和外部开发者的聊天机器人提供动力,并拥有广泛的新功能,包括改进的推理能力,可以帮助解决复杂的数学问题或立即提取一整本书的要点。“我认为,对于人工智能助手来说,最重要的产品将是它有多智能,”扎克伯格在接受系列节目The Circuit with Emily Chang的采访时表示,“我们正在打造的Llama模型是世界上最先进的模型。扎克伯格希望开放使用的策略将推动该公司的产品成为其他成功初创企业和产品的基础,令Meta在行业的远期发展中拥有更大的影响力。

2024-07-24 09:41:14 737

原创 大教堂和小集市正在AGI上上演

世界上的建筑可以分两种:一种是集市,天天开放在那里,从无到有,从小到大;还有一种是大教堂,几代人呕心沥血,几十年才能建成,投入使用。当你新建一座建筑时,你可以采用集市的模式,也可以采用大教堂的模式。一般来说,集市的特点是开放式建设、成本低、周期短、品质平庸;大教堂的特点是封闭式建设、成本高、周期长、品质优异。而AGI正分为两派:闭源企业派和开源自由派。但无论哪种形式,都将推动着ML走向全新的高位宇宙。

2024-05-31 10:30:20 1175

原创 【全网瞩目】OpenAI春季发布会结束,一夜过后又惊喜——GPT4O,新的 LLM 标准诞生了

虽然昨天我就一直关注到OpenAI的主页提示,即将发布春季直播,而且也有很多媒体透露没有Sora,可能是AI Search等等,但是没想到结果还是这么惊喜。就连OpenAI方面也在直播前几天透露,不是搜索引擎,而是GPT的优化。然而,OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

2024-05-14 09:01:17 940

原创 大算力时代已经到来

计算机发展到现在,早已经历了大数据时代,而现如今国家也注意到国民大数据的重要性,而给予保护性条款和制度的建立。我觉得这只是早已注定的结局,但是未来该走向何方,着眼当下,我们互联网人早已身处在答案之中——大算力(Big Computing Power)时代。回顾2019年,Nvidia宣布下一代的的显卡将会具备光追技术。而在随后2020年,区块链大佬就发现Nvidia的系显卡对原系算力的提升有着难以置信的显著表现。就此大算力时代也彻底拉开了序幕。当然,许多3A大作也可以在4k画质下突破百帧。随后,AMD也在2

2022-08-06 17:58:32 1365

原创 一个程序员应怀揣武侠梦

一个程序员应怀揣武侠梦在美国的硅谷,许多有梦想的青年都有着一份属于自己的美国梦。在他们的眼中,总会让人感受到一种想要改变世界的朝气。难道其他地方的青年们没有属于自己的梦想吗?答案明显是每个人都拥有着。我从小就被金庸先生和古龙先生笔下的“江湖”给深深的吸引着。在那里,权贵并不重要,更重要的是友情、亲情、国士无双的情怀。每一个身处在江湖中的人都始终贯彻着属于自己的人生信条。我觉得这样的人一定很热爱这个江湖。相比之下,计算机行业也是一种“江湖”。在AT&T的肯•汤普森先生和丹尼斯•里奇先生创作出 Un

2021-03-07 17:47:51 394 1

原创 BongoCat,我认为会是2025年最流行的互动桌面宠物应用哦

由于原项目仅支持 Windows,作为一名深度 macOS 用户,我希望在自己的设备上也能使用这款可爱的 Bongo Cat,因此决定开发一个适配 macOS 的版本。此外,得益于 Tauri 框架强大的跨平台能力,本项目不仅支持 macOS,还可在 Windows 和 Linux 上运行,让更多用户都能与这只可爱的猫咪互动!由于我的笔电空格键坏了,于是想找找有什么工具可以帮助我一下。结果,我从Github中翻到了这个项目,目前来看B站和抖音直播中都已经流行起来了。

2025-04-28 17:45:19 33

原创 微软发布全新Agent操作系统UFO² ,深度整合Windows与智能自动化

在不同的测试场景中,UFO² 的成功率分别达到了30.5% 和32.7%,而 Operator 的成功率仅为20.8% 和14.3%。例如,在 Excel 中将表格数据转换为图表,传统 RPA 需要模拟多次点击鼠标,而 UFO² 则可以通过一次 API 调用轻松完成,避免了视觉定位和鼠标模拟的繁琐。近日,微软宣布重磅升级其开源项目 AgentUFO,推出了全新的 UFO² 版本,该版本新增了操作系统功能,并与 Windows 系统实现了深度集成。

2025-04-28 09:21:48 129

原创 Meta 推出 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

Web-SSL 探索了视觉自监督学习(SSL)在网络规模数据上的扩展潜力。通过调整模型大小和训练数据,我们证明了纯视觉模型可以与 CLIP 等语言监督方法相媲美,甚至超越它们,从而对 "语言监督是学习多模态建模所需的强大视觉表征的必要条件 "这一普遍假设提出了挑战。我们提出了 Web-SSL:一个参数从 0.3B 到 7B 不等的纯视觉模型系列,它为多模态建模和经典视觉任务提供了 CLIP 的有力替代方案。

2025-04-28 08:54:08 720

原创 Step1X-Edit开源了,仅需45GB就可以获得GPT4o的编辑效果

我们发布了最先进的图像编辑模型 Step1X-Edit,其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说,我们采用了多模态 LLM 来处理参考图像和用户的编辑指令。我们提取了潜在嵌入,并将其与扩散图像解码器相结合,从而获得目标图像。为了训练模型,我们建立了一个数据生成管道,以生成高质量的数据集。为了进行评估,我们开发了 GEdit-Bench,这是一种植根于真实世界用户指令的新型基准。

2025-04-26 12:12:50 472 1

原创 月之暗面开源 Kimi-Audio-7B-Instruct,同时支持语音识别和语音生成

将输入音频转换为:使用向量量化的离散语义标记(12.5Hz)。从 Whisper 编码器获得的连续声学特征(降采样至 12.5Hz)。Audio LLM: 基于转换器的模型(从 Qwen 2.5 7B 等预先训练好的文本 LLM 初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。: 使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换成高保真波形,支持采用前瞻机制的分块流,以降低延迟。

2025-04-26 12:00:37 1694

原创 360团队开源360智脑模型,让任何人都可以搭建360AI知识库

🎉🎉🎉 近日,奇虎 360 对其自主研发的 7B 参数模型 360Zhinao3-7B 进行了开源升级。目前,该模型已在 Github 开源社区 360zhinao3 上发布,并可免费用于商业用途。该模型的功能得到了全面提升。与小于 10B 的小参数模型相比,360Zhinao3-7B 在多个基准测试中取得了第一名的优异成绩。我们的 360Zhinao3 型号的显著特点是:360Zhinao3-7B 是在 360Zhinao2-7B 的基础上使用 700B 高质量词块进行持续预训练的。

2025-04-25 07:00:00 810

原创 360CVGroup开源 IAA:内部适配器结构

我们提出了一种基于内适配器架构(Inner-Adaptor Architecture,IAA)的 MLLM。IAA 证明,在多模态理解和视觉接地任务中,使用冻结语言模型进行的训练可以超越使用微调 LLM 的模型。此外,在部署之后,我们的方法结合了多个工作流程,从而保留了语言模型的 NLP 能力。只需下载一次,就能对模型进行微调,以满足各种任务规范的要求。享受我们的 IAA 模型带来的无缝体验。

2025-04-25 06:30:00 541

原创 Manus开源平替!Kortix-AI正式发布开源通用AI智能体平台Suna

在 AI 技术蓬勃发展的当下,开源生态持续繁荣,不断涌现出令人瞩目的创新成果。近日,Kortix-AI 正式发布了开源通用 AI 智能体平台 Suna,其定位为热门 AI 工具 Manus 的开源替代品,一经推出便迅速吸引了 AI 开发者和自动化爱好者的广泛关注,在开源社区掀起了一阵热潮。

2025-04-24 07:43:32 827 2

原创 探索 Skywork-VL-Reward-7B:AI 推理新境界

市场上缺乏多模态奖励模型已成为制约多模态强化技术发展的主要瓶颈。我们开源了7B多模态奖励模型Skywork-VL-Reward,为业界注入了新的动力,开启了多模态强化学习的新篇章Skywork-VL-Reward基于Qwen2.5-VL-7B-Instruct架构,增加了训练奖励模型的值头结构。我们在 VL-RewardBench 中获得了 73.1 分的 SOTA,在 RewardBench 中获得了 90.1 分的高分。

2025-04-24 07:22:16 989

原创 知乎开源 Zhi-writing-dsr1-14b:开启创意写作新纪元

在人工智能领域,大型语言模型的发展正不断推动技术的边界。知乎开源的 Zhi-writing-dsr1-14b 模型,作为一款基于 DeepSeek-R1-Distill-Qwen-14B 细调的模型,专为提升创意写作能力而优化,为创意写作领域带来了新的突破。

2025-04-22 10:04:07 783

原创 腾讯旗下InstantCharacter框架正式开源 可高度个性化任何角色

目前基于学习的主题定制方法主要依赖于 U-Net 架构,但其泛化能力有限,图像质量也大打折扣。同时,基于优化的方法需要针对特定主题进行微调,这不可避免地会降低文本的可控性。为了应对这些挑战,我们提出了 “即时角色”(InstantCharacter)–一种基于基础扩散变换器的可扩展字符定制框架。InstantCharacter 展示了三个基本优势:首先,它在保持高保真效果的同时,实现了不同角色外观、姿势和风格的开放域个性化。

2025-04-19 10:23:02 674 1

原创 ControlNet作者再现神迹,发布FramePack——让消费级显卡也能快速生成视频

FramePack是一种下一帧(下一帧部分)预测神经网络结构,可逐步生成视频。FramePack将输入上下文压缩为恒定长度,因此生成工作量与视频长度无关。即使在笔记本电脑 GPU 上,FramePack 也能使用 13B 模型处理大量帧。FramePack可以用更大的批次规模进行训练,类似于图像扩散训练的批次规模。

2025-04-18 13:23:05 1286 2

原创 Kimina-Prover Preview:开启大模型形式推理新时代

月之暗面 Kimi 团队携手 Numina 团队重磅发布 Kimina-Prover 预览版,这是一款基于 Qwen2.5-72B 模型,通过大规模强化学习训练而成的数学定理证明模型。它在形式化定理证明领域开创性地采用由推理驱动的探索范式,展现出卓越的性能。

2025-04-17 15:52:11 285

原创 如何在消费级显卡运行 HiDream-I1 全家桶

HiDream-I1 是一个全新的开源图像生成基础模型,拥有 17B 个参数,可在数秒内实现最先进的图像生成质量。我们提供完整版和精简版模型。它们的参数大小相同,因此运行时所需的 GPU 内存量也相同。不过,由于减少了推理步骤,蒸馏模型的运行速度更快。

2025-04-17 13:30:26 570

原创 重磅! 第四代GLM发布!清华大学THUDM发布 GLM-4和 GLM-Z1

GLM 系列迎来了新成员–GLM-4-32B-0414 系列型号,拥有 320 亿个参数。其性能可与 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相媲美。它还支持非常方便用户的本地部署功能。GLM-4-32B-Base-0414 在 15T 的高质量数据(包括大量推理型合成数据)上进行了预训练。这为后续的强化学习扩展奠定了基础。在后训练阶段,我们针对对话场景采用了人类偏好对齐。

2025-04-16 09:21:18 1148

原创 清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。GenPRM 的设计理念模拟了人类解题时的思维过程,允许模型在每一步推理时进行自然语言分析,这样不仅提高了透明性,还使得步骤评估更加可解释。这种 “先解释、再验证” 的机制,不仅能够判断对错,还能提供具体的改进建议,显著提升了过程监督的效果。令人惊讶的是,GenPRM 只用了23K 的训练样本,就取得了超过 GPT-4o 的优异表现。

2025-04-15 11:13:56 466

原创 Skywork-OR1:开源推理模型的新突破​

Skywork-OR1 系列模型涵盖了三款高性能模型,各有千秋,分别针对不同的应用场景和需求:​:这是一款聚焦数学领域的专项模型,别看它参数规模为 7B,却在数学推理方面展现出惊人的实力。同时,它还具备较强的代码能力。在高阶数学推理任务中,其在 AIME24 数据集上取得了 69.8% 的准确率,在 AIME25 数据集上也有 52.3% 的准确率,远超当前主流 7B 级别模型,充分彰显了其在数学推理上的专业优势。​:该模型融合了数学与代码能力,是一款兼具通用性与专业性的通用模型。

2025-04-15 09:40:51 668

原创 华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

华为诺亚方舟实验室与香港大学自然语言处理组联合发布的Dream7B是一款具有创新意义的开源扩散大型语言模型。

2025-04-12 12:23:44 388

原创 DeepCoder:从实验室到工业界的 AI 编程革命

DeepCoder-14B-Preview 是一种代码推理 LLM,由 DeepSeek-R1-Distilled-Qwen-14B 微调而成,采用分布式强化学习 (RL),可扩展至较长的上下文长度。该模型在 LiveCodeBench v5(8/1/24-2/1/25)上达到了 60.6% 的 Pass@1 准确率,比基础模型(53%)提高了 8%,性能与 OpenAI 的 o3-mini 相似,参数仅为 14B。

2025-04-11 10:06:22 961

原创 月之暗面再次开源Kimi大模型——Kimi-VL-A3B-Instruct 和 Kimi-VL-A3B-Thinking

我们介绍的 Kimi-VL,是一种高效的开源专家混合物(MoE)视觉语言模型(VLM),它具有先进的多模态推理能力、长语境理解能力和强大的代理能力,而在其语言解码器(Kimi-VL-A3B)中只需激活 2.8B 个参数。Kimi-VL 在各个具有挑战性的领域都表现出了强劲的性能:作为一种通用的视觉语言模型,Kimi-VL 在多轮代理交互任务(例如 OSWorld)中表现出色,取得了与旗舰模型相当的先进成果。

2025-04-10 16:58:19 1064 2

原创 字节开源全新 Flux 可控模型——从少到多的泛化: 通过上下文生成解锁更多可控性

尽管主体驱动生成技术因其广泛的应用而在图像生成领域得到了广泛的探索,但它在数据可扩展性和主体扩展性方面仍面临挑战。就第一个挑战而言,从策划单主体数据集到多主体数据集并对其进行扩展尤为困难。其次,最近的大多数方法都是以单主体生成为中心,因此在处理多主体情况时很难应用。在本研究中,我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散变换器内在的上下文生成能力,生成高一致性的多主体配对数据。此外,我们还引入了 UNO,它由渐进式跨模态配准和通用旋转位置嵌入组成。

2025-04-10 16:36:51 536

原创 国产AI崛起!17亿参数开源图像模型HiDream-I1横空出世

技术专家分析认为,HiDream-I1的成功很可能源于其开发团队对扩散模型前沿技术的精准把握,以及大规模预训练策略的巧妙应用。随着社区参与度的提升和技术的不断迭代,这款国产AI模型不仅有望成为中国人工智能技术的新名片,更可能在全球开源生态中占据重要位置,为更广泛的用户群体打开AI创意世界的大门,让人工智能的魅力触手可及。近日,国产开源图像生成模型HiDream-I1震撼发布,凭借17亿参数的技术底蕴,这款由HiDream-ai团队倾力打造的AI"画匠"正迅速成为科技圈新宠。

2025-04-09 10:46:49 436

原创 Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%

近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。

2025-04-09 09:31:26 828

原创 英伟达为其专有的CUDA架构带来原生的Python支持 帮助开发者加速AI开发进程

根据 GitHub 2024 年开源数据调查,Python 在 2024 年已经超过 JavaScript 成为全球最受欢迎的编程语言,Python 在数据科学、机器学习和高性能计算领域占据着主导地位,但长期依赖 CUDA 对 Python 的支持仅停留在工具层面,开发者需要掌握 C++ 或 Fortran 等语言才能直接操作 CUDA 进行 GPU 编程,显然这种壁垒肯定会限制 CUDA 在 Python 开发者社区中的普及。

2025-04-08 07:14:47 291

原创 NVIDIA PhysX 和 Flow 现已完全开源

我们很高兴地告诉大家,PhysX SDK 的最新更新现在包含所有 GPU 源代码,并获得了 BSD-3 的完全许可!GPU PhysX 拥有超过 500 个 CUDA 内核,支持刚体动力学、流体模拟和可变形物体等功能,是 CUDA 和 GPU 编程最先进的实时模拟用例之一。当然,我们会继续密切关注任何利用新推出的 GPU 模拟内核源代码的模组版本。NVIDIA PhysX 是一个我们很久没有关注过的名字,直到最近,用户发现 NVIDIA 已经放弃了对新 GeForce RTX 50 系列显卡的支持。

2025-04-07 06:42:50 327

原创 GPT-ImgEval:诊断图像生成中 GPT4o 的综合基准

首次在三个成熟的基准测试中对GPT-4o的图像生成能力进行定量和定性评估,包括文本到图像的生成(GenEval)、编辑(Reason-Edit)和基于世界知识的语义生成(WISE)。我们的综合结果表明,GPT4o的图像生成和理解能力优于以前的模型。:基于基准测试结果,我们对 GPT-4o 的潜在底层架构进行了深入分析。通过基于分类器的图像分析调查,我们确认解码器最有可能是一种 Diffusion 架构,并给出了一种潜在的编码器范式推测。

2025-04-07 06:30:00 602

Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

2024-08-29

Grok-314B模型磁力链接

Grok-314B模型磁力链接

2024-03-18

image模型,yolov3.pt

image模型,YOLOv3 (Size = 237 mb, moderate performance and accuracy, with a moderate detection time)

2023-01-12

image模型,tiny-yolov3.pt

image模型,(Size = 34 mb, optimized for speed and moderate performance, with fast detection time)

2023-01-12

retinanet-resnet50-fpn-coco-eeacb38b.pth

Imageai模型,RetinaNet (Size = 130 mb, high performance and accuracy, with longer detection time)

2023-01-12

densenet121-a639ec97

ImageAI模型,DenseNet121 by Facebook AI Research (Size = 30.8 mb, slower prediction time and highest accuracy)

2023-01-12

inception-v3-google-1a9a5a14.pth

ImageAI模型,InceptionV3 by Google Brain team (Size = 103 mb, slow prediction time and higher accuracy)

2023-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除