louwill12-CSDN博客

原创 GPT Image 2.0全量上线，OpenAI重新拿回文生图王座

上一次OpenAI在生图模型方向搞出这么大动静，还是去年3月份的GPT-4o image generation那个模型，那会我用风靡一时的吉卜力风格来做AI视频，还在B站拿到了10w+的流量。去年12月份的时候，OpenAI发布了GPT-Image-1.5，效果一般，并且Sam也知道这玩意打不过谷歌的Nano Banana，所以本身也没多少宣传声量。以前 DALL-E 3、chatgpt-image-latest 基本锁死几个档位，这次彻底铺开，banner、slide、海报、手机竖屏可以随便出。

2026-04-22 14:19:13 328

原创机器学习实验室即将更名

作为一个从数据分析和机器学习时代过来的老号，在当前的技术形势下，机器学习实验室这个名称早已不合时宜。不怎么更新的原因有两个，一个是平台对于老号的权重降得非常低，我去年6-8月份写了30多篇原创，阅读量最好的一篇才1.3w，大部分文章都不给推流。，这样我的工作和注意力会更加聚焦到AI编程与Vibe Coding。这个号，写作仅三个月，就拿到了我人生中首个10+，这是机器学习实验室这个老号过去10年都没能达成的目标。机器学习实验室这个号，接下来我会改个名称，在内容定位上也会积极做出调整，也欢迎大家继续关注。

2026-03-31 22:26:51 16

原创 OpenAI Prism，Vibe Researching时代的AI科研Agent来了

但科研的核心在于，提出有价值的问题、设计严谨的实验、做出可靠的判断，这些仍然需要人类智慧。它有一个叫Research Window的功能，能保持整个项目的上下文，不会像普通对话那样失忆。你在白板上随手画个草图，拍照上传，Prism能直接转成TikZ代码，生成出版级质量的矢量图。他担心的是vibe-written论文泛滥，看起来像那么回事，但实质空洞的AI生成内容。前段时间我刚写了一篇关于Vibe Researching的文章，提到OpenAI的首席科学家说未来是Vibe Researching的时代。

2026-01-28 17:32:03 574

原创 MarkItDown，微软开源的超强AI文档转换工具

不知道有多少人跟我一样，相较于看文档写文档，更喜欢的是跟代码打交道。PDF、Word、Excel、PPT，各种格式的文档堆在一起，想统一喂给大模型，光是格式转换就得折腾半天。Markdown的好处在于：既保留了文档结构（标题、列表、表格、链接），又足够轻量，没有多余的格式标记。主流的大模型，不管是GPT-5还是Claude 4.5，都对Markdown有天然的亲和力。我是鲁工，八年AI算法老兵，AI全栈开发者。MarkItDown解决的是一个很具体的问题：如何把各种格式的文档，高效地转成AI友好的格式。

2026-01-09 17:29:20 439

原创＜span class=“js_title_inner“＞MarkItDown，微软开源的超强AI文档转换工具＜/span＞

不知道有多少人跟我一样，相较于看文档写文档，更喜欢的是跟代码打交道。PDF、Word、Excel、PPT，各种格式的文档堆在一起，想统一喂给大模型，光是格式转换就得折腾半天。Markdown的好处在于：既保留了文档结构（标题、列表、表格、链接），又足够轻量，没有多余的格式标记。主流的大模型，不管是GPT-5还是Claude 4.5，都对Markdown有天然的亲和力。我是鲁工，八年AI算法老兵，AI全栈开发者。MarkItDown解决的是一个很具体的问题：如何把各种格式的文档，高效地转成AI友好的格式。

2026-01-09 17:29:20 313

原创使用JSON/XML结构化提示词，大模型通常有更高的输出质量

但如果用的是中小型模型，结构化提示词的价值就非常大了。在代码翻译任务中，GPT-3.5-turbo的性能波动可以达到40%，仅仅是因为换了一种提示词格式。最近在使用Claude和GPT的过程中，我发现了一个有意思的现象：当我把提示词从普通的自然语言改成XML或JSON格式后，模型的输出质量明显提升了。结构化格式的标签就像是路标，告诉模型："这一块是指令，那一块是上下文，这里是示例。第二种写法，Claude能准确理解：数据在哪、要求是什么、参考格式是什么，输出一份结构清晰的列表式报告。

2025-12-24 10:52:23 694

原创＜span class=“js_title_inner“＞使用JSON/XML结构化提示词，大模型通常有更高的输出质量＜/span＞

但如果用的是中小型模型，结构化提示词的价值就非常大了。在代码翻译任务中，GPT-3.5-turbo的性能波动可以达到40%，仅仅是因为换了一种提示词格式。最近在使用Claude和GPT的过程中，我发现了一个有意思的现象：当我把提示词从普通的自然语言改成XML或JSON格式后，模型的输出质量明显提升了。结构化格式的标签就像是路标，告诉模型："这一块是指令，那一块是上下文，这里是示例。第二种写法，Claude能准确理解：数据在哪、要求是什么、参考格式是什么，输出一份结构清晰的列表式报告。

2025-12-24 10:52:23 598

原创 Nano Banana Pro二次编辑的入口，谷歌竟然藏得这么深！

按照正常的逻辑，我生成了一张图，觉得需要优化，用二次编辑的方式定点修改。而不是我生成了一张图，觉得效果不好，但我需要把这张图先下载下来，再上传到Gemini，然后再二次编辑这张图后发给模型修改。具体操作方法是，用Nano生成完一张图后，把这张图下载到本地，然后再上传到Gemini，或者是上传一张需要修改的图。关键操作在于，上传后，不要写完提示词就点提交，先等一下，点击上传的图像到放大页面。所以，当我们用Nano生成一张图后，甚至都没有二次编辑的入口，只能继续发提示词，修改起来也不那么精准。

2025-12-17 16:14:57 455

原创 DeepResearch + 一键生成PPT：建议立刻将NotebookLM作为日常生产力工具

从去年的Audio Overview播客生成，到今年的Video Overviews视频生成，再到现在的Slide Deck幻灯片生成，NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告，我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图，呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等多模态的方式进行呈现，算是打通了信息搜集领域的完整链路，形成了应用闭环。

2025-12-03 18:15:55 1389

原创＜span class=“js_title_inner“＞DeepResearch + 一键生成PPT：建议立刻将NotebookLM作为日常生产力工具＜/span＞

从去年的Audio Overview播客生成，到今年的Video Overviews视频生成，再到现在的Slide Deck幻灯片生成，NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告，我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图，呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等多模态的方式进行呈现，算是打通了信息搜集领域的完整链路，形成了应用闭环。

2025-12-03 18:15:55 570

原创吴恩达团队新课上线！基于CrewAI的多智能体开发

大家都在说2025年是Agent元年，现在已经是11月中旬，纵观这一整年的Agent发展来看，确实是勃勃生机，万物竞发的感觉。GitHub上4万多颗星不说，关键是它不挑食——什么大模型都能接，既能上云也能本地跑。目前也是CrewAI的CEO，由他来讲基于CrewAI的多智能体搭建，恐怕全世界也找不出第二个更适合的人选了。最打动我的是它还有个无代码UI Studio，不想写代码的时候拖拽一下也能搭个Agent团队出来。但关于多智能体（Multi-Agent）搭建的相关课程，目前全网还没有一门系统性的课程。

2025-11-16 23:17:36 787

原创 2025年，Python包管理工具已经由pip变成了uv？

下次再安装同样的包（可能是在不同的项目里），uv直接从缓存读取，甚至不需要重新下载。而且在支持的文件系统上，uv使用写时复制（Copy-on-Write）和硬链接技术，这意味着同一个包在多个虚拟环境中共享，不会占用多倍的磁盘空间。uv使用了更高效的算法来解析依赖图，支持平台无关的解析，还能生成跨平台的锁文件。我现在的做法是：纯Python项目用uv，需要系统依赖的项目（比如 PyTorch GPU 版）还是用pip或者Conda。pip是用Python写的，uv用的是Rust。

2025-11-13 09:52:11 1048

原创 Qoder CLI，也许是Claude Code在国内的最佳平替

相比于Claude Code 20刀的Pro和200刀的Max而言，Qoder 20刀的Pro和60刀的Pro+订阅费相对便宜很多了，并且目前有限期的半价活动，10刀就可以上手Qoder IDE和CLI编程套装。比如说阿里，今年以来，光在CLI AI编程赛道上，就已经有了三款公开发布的产品，分别是通义千问团队的Qwen Code、心流团队的iFlow，以及Qoder团队的Qoder CLI。实际使用下来，生成的代码确实基本可用，但在精细度和惯用写法的遵循上，还是Claude Code更胜一筹。

2025-10-27 16:07:13 4576

原创吴恩达最新课程Agentic AI上线！

跟吴恩达老师之前的课程一样，本次Agent课程的实操部分也不会专门依赖于特定的实现框架，比如LangChain等，而是直接使用Python从零开始搭建Agent模式，可以算是实战Agent编程最好的方式了。我过去学习吴恩达老师的机器学习和深度学习课程，其中就有大量的Code from scratch的练习，非常适合初学者搞懂原理和实践中的每一步。课程，旨在教大家如何通过迭代和多步骤工作流来构建AI智能体系统，并搭建可用于生产环境的智能体，包括Agent的构建方法和部署评估。

2025-10-09 20:30:30 627

原创推荐一款前端项目Vibe Coding必备的MCP！让AI随时能看到网页开发效果

这么说吧，有了这款MCP之后，你就再也不用去在前端页面中截图拖拽到CLI，也不用去复制粘贴控制台的报错，Chrome DevTools提供的一切信息随时作为上下文喂给大模型，相当于代替了开发者去看网页效果。但前两天我用了谷歌开发的这个MCP之后，突然觉得，之前的截图拖拽简直是反人类的设计。作为MCP服务器运行，使你的AI编程工具能够充分利用Chrome开发者工具的全部功能，实现可靠的自动化操作、深入的调试以及性能分析。所以，如果你在做前端类的Vibe Coding项目开发，我极度推荐你配置一下。

2025-09-24 22:56:36 668

原创一键召唤AI助理！Gemini in Chrome，浏览任何网页都可随时提问

经过上述一顿操作之后，重启浏览器，如果顺利的话，你会看到浏览器顶部的Gemini图标，这时候你就可以愉快使用Gemini in Chrome功能了。然后是Chrome浏览器要求，需要将Chrome升级到最新版本，在Chrome右上角找到Chrome设置，在设置页面左侧最下方找到关于Chrome，选择升级到最新版本即可。通过将Gemini内置到Chrome中，用户可以直接在Chrome浏览器中调用Gemini，让Gemini成为上网时的AI助理。我是鲁工，八年AI算法老兵，AI全栈开发者。

2025-09-23 08:52:45 3310 1

原创字节的图像生成模型Seedream-4.0，与谷歌的Nano banana的差距真的只有一周时间？

在Lovart中使用图像模型生成超详细的图文笔记，可以视为信息图的一种高端玩法，这个也是这两天除了手办之外，Nano最流行的玩法。目前Lovart上Nano banana和Seedream-4.0都可以支持，所以最强的图像生成的模型，配上最强的设计AI，碰撞出的火花也无可比拟。原以为Nano banana会在很长一段内没有竞争对手，但没想到，不到两周的时间，字节就搞出了与之匹敌的Seedream-4.0模型，全方位对标谷歌的Gemini图像模型系列和产品。这个例子，两个模型的表现都不太好。

2025-09-12 16:36:37 1256

原创我用Google AI Studio做了个Nano banana前端应用，过程比想象中简单太多

总体来看，Build对于构建中小型前端应用可以说是超级利器了，对于复杂应用我还没试过，后续深度使用了再来反馈。但最重要的是，Google AI Studio整体是免费的，给大家Vibe Coding又带来了新的工具选项，所以非常值得深度挖掘。Build应用页面分为预览（Preview）和代码（Code），预览页面就是前述的效果应用，可以直接测试和使用，观察页面效果。我们也可以下载代码到本地，在本地打开IDE进行编辑和调试，也可以直接将应用一键部署到谷歌的Cloud Run，非常方便开发和管理。

2025-09-04 17:31:43 1121

原创最强图像模型Nano Banana的14个最流行玩法！

但是深度用过4o图像生成的朋友都应该有体会：4o生成的图像，它会改变原图，比如照片修复，它修复完后会跟原图不一样，比如长相变了，构图改了等等。在Lovart中使用Nano生成超详细的图文笔记，可以视为信息图的一种高端玩法，这个也是这两天除了手办之外，Nano最流行的玩法。这个周末在Lovart上可以免费无限使用Nano，所以最强的图像生成的模型，配上最强的设计AI，碰撞出的火花也无可比拟。你需要生成这个笔记，来解释后面的内容；这是4o的修复，乍一看，很惊艳，但仔细一对比，发现细节全都不一样，长相也变了。

2025-08-31 23:17:02 1398

原创新手如何快速利用Claude Code开发项目并部署上线

然后是权限管理问题，用过CC的朋友的都知道，CC在任务执行过程中，遇到一些文件读写、Bash命令、数据库操作、依赖库安装等操作时，经常会停下来要求你进行人工确认，非常耽误开发进度。可以先描述一下你的开发需求，比如做一个什么的网站，有哪些功能，面向什么样的用户，希望用什么框架等等。所以先别急着跟CC聊需求，在正式开干之前，我们需要进行一些信息配置，给CC输入一些基本的上下文信息，来让CC了解我们的开发习惯和使用偏好。中间过程可以深度与CC讨论，深化相关需求，最后形成一份需求清单后，就可以直接让CC开干。

2025-08-19 20:17:07 1658

原创我用Gemini为两岁的女儿制作了一套AI故事绘本

作为一个有女儿的爸爸，我第一时间体验了下Gemini的storybook。让我吃惊的是，就这么一个看起来不是很复杂的AI Agent产品，所使用的Agent竟然高达20个！有了初步的使用经验之后，我又加大强度，将我女儿平时的生活照转换为吉卜力风格或者Veo3视频，再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临，我下班回到家，用电脑打开Gemini Storybook，和女儿在屏幕前一起听AI创作的故事绘本，我想这就是AI发展对于普通人的意义所在吧。

2025-08-11 20:55:21 850

原创 OpenAI最新开源模型GPT-oss一手实测：小而美的推理模型

并不是说这两个模型有多强（当然也确实很强，但不是对标Claude 4.1的那种强），而是在20B和120B的这个参数规模上，做了极致的工程优化。实测下来，感觉GPT-oss这两个模型响应速度非常快，到X上一查，20B的模型可以干到每秒1200个token，120B的模型也能达到536个token。相信这也是极致的工程优化后的结果。20B和120B都能很好的实现扫雷游戏，但20B只能实现初级的9x9扫雷，120B则提供了初级（9x9）、中级（16x16）和高级（30x16）三种level的难度。

2025-08-06 17:30:54 1101

原创腾讯的混元3D AI生成，是每个人最佳的3D数字资产管理平台

Hunyuan3D-Paint则利用强大的几何和扩散先验，通过新颖的网格条件多视图生成管道和图像去光照模块，为生成或手工网格生成高分辨率、生动的纹理贴图，确保多视图生成的一致性。现在，我可以用单张3D医学影像，基于混元3D进行三维重建。但混元3D生成系列模型开源之后，在混元3D生成平台，用户仅需要提示词描述和参考图像，即可生成3D内容。在提升3D内容生成质量和效率的同时，也大幅度降低了3D内容创作的技术门槛。实验室可以看作是一个基于上述两大模型的3D应用平台，用户可以在上面完成一些有趣的3D生成创作。

2025-08-04 21:05:58 1380

原创自从用了谷歌的NotebookLM后，我卸载了之前所有的个人笔记软件

这几年，笔记和知识库之类的应用涌现出很多，比如Notion、语雀、飞书，这些都能当个人笔记和知识库，并且这两年都不断在加深AI生态的构建。在中间的对话区，我们可以基于所有的数据材料，跟大模型进行对话，深度学习和探讨材料中的知识，并随时可以将讨论过程中的真知灼见添加到笔记区。NotebookLM还可以基于所有上传的材料，生成语音概览和视频概览，也就是AI博客，不想看文字的时候，我们可以听音频看视频。放心地使用NotebookLM的所有回答，它会为生成的内容提供明确的引用，并显示来源中的确切引文。

2025-07-31 21:05:58 1300

原创正式发布一个月后，Veo3的含金量还在上升

Veo3正式发布都一个多月了，我原以为一波热度过去，等大众习惯这种最初的惊艳感之后，关于Veo3的讨论会有所减少。针对Veo3，谷歌还公开了一个更高端的图生视频玩法，就是直接在参考图像上按顺序用文本标注视频指令，让Veo3在生成时删掉第一帧，然后按顺序执行标注的文本指令。依靠音画同步和超强的一致性效果，Veo3使得谷歌原本在AI视频生成这个相对落后的赛道里，后来居上，迅速成为第一梯队玩家。月初的时候，我曾写过一篇关于Veo3发布后，AI视频生成赛道的整体竞争格局的文章。举几个最近的流行玩法的例子。

2025-07-28 16:37:04 1113

原创 Qwen3-Coder编程实测，Qwen Code已成为Claude Code/Gemini CLI的国产平替

前有Cursor、Trae、Claude Code，后有Gemini CLI和Kimi K2，这次Qwen3-Coder又全面出击，整个赛道的竞争格局又面临变化。但整体来看，Qwen3 Coder目前的编程能力已经非常接近Claude 4 Sonnet了，甚至在部分任务上效果还要优于Claude 4。但Qwen3 Coder胜在开源，相比之下，Claude贵且易封号，使用Qwen3 Coder，每个月立省200刀，做梦都能笑醒。这时候，使用的模型就是Qwen3-Coder了。

2025-07-24 16:16:16 5497

原创多模态RAG，图像/语音/视频也能拿来做检索增强生成

比如论文中这个图，传统的PDF文档检索，要经过OCR、布局检测、文本摘要、文档切分（chunking）等一系列处理步骤，一套操作下来，每一页需要7.22秒的时间，可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具，依靠基础的多模态大模型的能力进步，多模态RAG一定大有可为。ColPali的文本和图像检索基础上，新增了音频和短视频数据的检索生成功能。

2025-07-21 16:39:41 879

原创大模型从Chatbot变成Artifacts，Deep Research从文字结果到可视化报告

虽然这个问题链的话题并不是今天讨论的重点，但这种高度清晰可见的过程展示，让用户能够更加清楚的了解AI的工作过程，本身就是一种大模型可解释性的方式，也进一步增加了深度研究搜索过程和结果的可信度和可靠性。比如，在本例中，Gemini在报告的几个关键点上添加了Gemini交互按钮，我们可以点击相关按钮，更深入的理解报告内容。整体来看，Gemini Deep Research应该目前功能最为齐全的深度搜索产品了，底层依靠强大的Gemini 2.5 Pro基座模型，前端应用功能又齐全多样，玩技术生态，还得是谷歌。

2025-07-17 09:26:30 1160

原创逆势而上的月之暗面：Kimi K2编程实测

该卡片应通过不同的动画效果直观展示以下天气状况：风：（例如移动的云朵、摇曳的树木或风线）雨：（例如落下的雨滴、积水形成）太阳：（例如照射的光线、明亮的背景）雪：（例如落下的雪花、积雪）将所有天气卡片并排显示。但K2的论文还未发布，这1T参数量的模型具体咋训练的，只能等后续论文发布了再看。特别是在年后DeepSeek崛起，六小龙模式岌岌可危的环境下，Kimi能逆势而上，仍然在基座模型上持续发力，颇有一种强势回归的即视感。巧合的是，K2发布后，OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。

2025-07-14 16:36:21 1238

原创自从有了Deep Research，我成了文献综述/技术调研爱好者

过去，我经常跟我的组员、跟机器学习交流群里的群友说，想要快速切入到一个不太熟悉的学术方向和技术领域时，最好的方法是找一篇该领域最新的综述来精读。我数了一下今年2月份以来，我在各个平台使用Deep Research生成的报告数，足足有113篇，除了周末，基本上每天都在用AI做深度研究和调研，是名副其实的文献综述和技术调研爱好者。有时候想想，现在的学生真幸福，赶上了AI爆发的好时代，各种信息、AI工具随手就能获得，我读研的时候要是有Deep Research这种科研大杀器，高低也能多出两篇学术成果。

2025-07-10 08:48:37 787

原创 Veo3视频生成，后来居上

" 在一段摇晃的手机自拍画面中，雨水打在镜头上，秦王李世民的黑甲军队与太子红卫队在泥泞的混乱中交锋：战马践踏着倒下的旗帜，破碎的剑刃嵌入雨淋的鹅卵石中。在下方的提示词输入框内输入生成提示词，框内右上角选择生成的视频个数（1~4个）和所用的生成模型（Veo2或者Veo3），即可进行视频生成。更重要的是，Veo3的爆火，给第一梯队的选手们带来了压力：这边可灵紧急上线音画同步生成功能，那边海螺发布新模型hailuo-02，顺带还发布了全球首个AI视频生成Agent。谷歌在这条赛道里面，其实是有些落后的。

2025-07-07 08:41:16 1550

原创 Gemini CLI，命令行效率神器！也是目前唯一能白嫖Gemini 2.5 Pro的方式了

作为命令行工具，Gemini本身也是作为一个npm包（可以理解为Node.js的应用商店和命令行工具）发布的，所以安装Gemini前需要安装Node.js软件，直接到Node.js官网下载安装，安装过程中记得勾选将Node.js加入环境变量。但我想说的是，对于像Gemini CLI这样的新型生产力工具，一定要第一时间研究尝试，看看怎么跟自己当下的工作场景和工作流结合，来最大化自己的工作效率。所以，MCP本质上是一种大模型接口，通过这个接口与各种各样的功能进行链接，让大模型如虎添翼。

2025-07-03 08:56:11 3639

原创达摩院的胃癌早筛影像AI，再次印证了：医疗AI，最重要的不是模型和算法

然后的GRAPE的评估阶段，该阶段要跟放射科医生阅片做对比，测试GRAPE在辅助诊断方面的潜力。第二阶段，以前一阶段的ROI作为输入，基于3D卷积搭建多任务的分割和分类网络，分割网络同时分割出胃部和胃癌，分类网络在分割网络主干基础上用全局池化（GP）和全连接（FC）层拉的一个分支，是个典型的深监督结构，用于胃癌/非胃癌的二分类。早在两年前，达摩院就发布了基于胰腺癌早期筛查模型PANDA，同样是平扫CT，熟悉的Nature Medicine，在常见癌症的影像学大规模筛查上，达摩院似乎找准了AI医疗的落地点。

2025-06-30 08:56:10 1175

原创《深度学习图像分割》第5章：基于多尺度结构的分割网络

ParseNet通过全局平均池化的方法在FCN基础上直接获取上下文信息，图5-3为ParseNet的上下文提取模块，具体地，使用全局平均池化对上下文特征图进行池化后得到全局特征，然后对全局特征进行L2规范化处理，再对规范化后的特征图反池化后与局部特征图进行融合，融合得到的特征图最终能够显著提升语义分割效果。多尺度结构的设计理念在于通过增强模型对不同尺度上下文的感知能力，提升语义分割的精细度和全局一致性，其主要目标是解决上下文信息捕捉不足和多尺度特征融合问题。上下文的概念与自然语言处理中的句子语境分析类似。

2025-06-24 22:49:37 960

原创 DeepSeek-R1-7b全量微调（SFT）技术教程

一个7b的模型，采用LoRA训练通常只需要两张24G的3090或4090显卡即可，并且对数据量要求不高，几百条数据即可开训，半小时内即可训练完成，非常高效。并且LoRA是一种可插拔式的适配器模型，当我们想要实现不同的模型风格效果时，在基础模型不变的情况下，可以训练多个LoRA与基础模型切换和适配，非常灵活。SFT一般需要较多的高质量微调数据，对算力要求也非常高，一个7b的模型，全量微调通常需要参数量16~20倍的GPU显存，也就是说至少需要两张80G的A100显卡才能训的动。为了方便读者上手，笔者通过。

2025-03-16 19:37:01 3621

空空如也

空空如也