技术人生黄勇-CSDN博客

转载图像生成中文竞技场双榜更新：Nano Banana Pro双榜登顶，Seedream4.0等国产模型表现出色

本次榜单基于最新投票数据生成，我们将继续累积用户投票，定期更新排名。诚邀您参与评测，用实际体验为模型能力提供真实反馈，共同完善图像生成模型的评估标准。我们诚邀研究人员、行业从业者以及所有关注大模型发展的用户，积极参与投票，助力中文大模型评测体系的完善。SuperCLUE中文图像生成竞技场完成新一轮数据更新，现将。联系邮箱：contact@superclue.ai。竞技场的上线，为用户提供了更加开放和互动的方式。生成竞技场双榜更新，持续投票将刷新排名。两大榜单的最新进展公布如下。原文，直达文生图「竞技场」

2025-12-01 18:40:12 22

转载大模型边际效应下降，小模型正在悄悄逆袭

在手机（主要）、眼镜、手表、音箱、甚至汽车座舱上的模型，因为手机内存通常8-16G，留给模型4-6G使用，那么模型规模可以在0.5B-3B之间，或者经过极致量化的7B模型。还有就是，模型量化，Densing Law发现模型压缩算法并不总能增强模型能力密度，说白了，就是量化之后，模型本身能力下降了，把这个比率拉的更高，模型能力密度才能更高。有些人可能对端侧模型很模糊，其实我也很模糊，因为你会发现，有的0.几B的说自己的端侧模型，7B、8B甚至14B的也说自己的端侧模型。数据过多可能导致模型出现遗忘，

2025-11-29 21:37:08 24

转载这个GitHub项目，要断了所有程序员的后路......

更夸张的是，AI在没有在没有任何示例的情况下，自主设计出了合理的数据库表结构（包含正确的类型和索引）、安全的参数化 SQL 查询（可防止注入攻击）、类 REST API 规范、响应式 Bootstrap 布局、表单验证以及针对极端情况的错误处理。AI生成界面的一致性也很差，它会忘记刚刚生成的UI，导致同一个界面，颜色和布局都可能发生变化，看看下面这个界面，风格完全变了。不过，稍微熟悉大模型的人就知道，现在的大模型远远没有这么智能，比如它根本不具备Web服务器的能力，也没法访问数据库和文件。

2025-11-27 13:39:54 19

转载 Nano Banana Pro震撼登场！图像编辑竞技场迎来全新强者

我们诚邀研究人员、行业从业者以及所有关注大模型发展的用户，积极参与投票，助力中文大模型评测体系的完善。当有效投票数达到统计要求时，它将正式进入排行榜并获得相应排名。提示词：沙发替换为绿色皮质沙发，沙发上面有被狗咬破的几个洞孔。竞技场的上线，为用户提供了更加开放和互动的方式。与上一代 Nano Banana 的性能对比。与 GPT-Image-1 的能力对比。提示词：把图中的小鸭全部替换为小猫。提示词：把猫替换成张嘴打哈欠的红狐。【图像编辑竞技场迎来重磅升级】原文，直达图像编辑「竞技场」

2025-11-25 11:53:41 49

转载这大概是我见过最通俗易懂的AI发展历程科普详文了

这阶段（也是我们正在经历的）的AI，我认为他已经是一个读遍天下书的大学生，拥有了丰富的知识积累加上了一定量的实习经验，下一阶段就是未来，他应该会走上社会，成为一个职场上的专业人员，把多年积累下来的知识和实习期积累的经验更好的应用在职场上，同样的，我们可以把这阶段的AI称为“深度学习/大模型AI”。我们在AI成长期（1990-2016）这一阶段发现，AI虽然出现了机器学习的概念，并且通过机器学习的方式训练出了AI模型，但这个AI模型太“偏科”了，一旦涉及到它训练数据以外领域的知识，他就可能不知道了。

2025-11-21 18:49:20 50

转载智谱Glyph：把信息，压缩成图片

用了 document_style、web_style、dark_mode、code_style 等多种风格。Glyph 的表现和 Qwen3-8B、GLM-4-9B-Chat-1M 相当。DeepSeek-OCR 用来做 OCR、处理 PDF、生产训练数据。DPI、页面大小、字体、字号、行高、对齐方式...通过搜索的方式，找到效率最高的渲染方式。用找到的最优配置做 SFT 和强化学习。从 29.18% 提升到 45.57%验证利用视觉模型实现上下文扩展的可行性。利用视觉模型实现上下文扩展的可行性。

2025-10-21 18:47:18 135

转载字节开源Seed-OSS模型，36B的理想尺寸，但中文好像不行

好起来，这两个月，阿里、腾讯、字节、百度、DeepSeek、智谱、阶跃、百川、小红书、知乎、昆仑万维等等等，你能想到的大模型公司，都开源了。放出非合成数据版本模型，是一个亮点，大家都知道，在预训练阶段加入合成数据、指令数据，核心是为了给Base提点，榜单好看。当然我还没有真正测试中文上的场景，但没有训练应该也不会太好，毕竟数据是12T，也不是太多。昨天晚上，字节也开源了大模型-Seed-OSS，36B大小，有三个模型，Seed-OSS-36B-Base：预训练模型，，交个朋友吧，一起学习，一起进步！

2025-08-21 10:41:00 57

转载世界人形机器人运动会，幕后更精彩！

北京联通智网优化中心5G-A专家曾伟告诉《中国电子报》记者，相较于人使用的网络，人形机器人对网络提出了三方面要求：“一是大带宽，机器人的运作依托于许多传感器、摄像头等设备的协同，需要实时将大量数据与视频等内容传输至云端或边缘节点进行分析处理，这就对网络的带宽提出了新的要求。利亚德为大会开幕式提供了专业的视效服务与保障，其高清LED显示屏以其高亮度、高对比度、高刷新率的特性，清晰呈现人形机器人的每一个动作细节，构建了兼具未来感与竞技氛围的震撼舞台效果，为赛事点亮更多精彩瞬间。田径、场景赛、表演赛……

2025-08-17 23:22:20 96

转载 GPT-5，翻车了！

他预测，随着技术成熟和开源模型的追赶，未来“足够好”的AI模型将能在消费级硬件上本地运行。OpenAI在系统卡中称其为一个“统一系统”（unified system），但紧接着的解释却耐人寻味：该系统包含一个处理多数问题的“快速模型”，一个用于解决难题的“深度推理模型”，以及一个实时“路由器”来决定使用哪个模型。从一个令人啼笑皆非的图表错误，到一个经典的物理学“伪科普”，再到对模型核心架构的质疑，精英开发者社群用最挑剔的眼光，对GPT-5乃至当前AI技术浪潮进行了一次彻底的“冷水浴”。

2025-08-08 13:00:03 98

转载从上海 WAIC 归来的一些见闻和感想

出门问问 TicNote 现场直接卖光了，科大讯飞区也超级火爆，语音相关的产品区让人感觉太卷了，大家把能想到的硬件软件都做了。逛完 AI 区，很奇怪，发现百川和01都没来，Kimi 应该是来了，但是为啥我找不到 Kimi 的展台...MiniMax 展台，在展区里属于 C 位了，今年视频、陪伴、声音、Agent四个业务都赚钱了，商业鬼才。在路上堵了一小时，终于到达了会场，逛了一圈发现大家都在不在这里，而在展览馆。第二天，去机器人展区逛了逛，还是觉得具身智能有亿点点抽象，大家做的东西都差不多。

2025-07-29 12:41:32 67

转载「沉思」实测：第一次，AI 自己把活干、把钱赚（附：10+场景实践）

它翻遍医学、法学、经济、艺术等 5 个典型领域的研究范式，对比传统学术流程与 AI 辅助写作的差异，输出了一万字以上的深度报告。沉思查遍小红书、B 站、知乎评测，列出不同风格相机的优缺点，区分胶片感、便携度、成像质感、售后口碑，并按风格和预算做了分组推荐。跳过一个广告，再手动滑动到底部；沉思从参数、重量、电池、热控、社区口碑五个维度做横评，结合用户的出差场景写出推荐意见，并附带了中英文评测引用。它制定了包含每日路线的攻略，还逐条查了小红书里每个景点的最新评论，标注了哪些推荐靠谱，哪些过誉，哪些值得错峰。

2025-03-31 18:05:15 162

转载心法利器[131] | 盘点踩过大模型多轮对话的坑

举一个例子，多轮对话往往需要应对很多不同的问题，每个迭代周期增加几个，从无到有逐步完善，如果整个系统内只有一个大模型，随着功能变多，要不就是prompt越来越长，要不就是不断微调，无论是前者还是后者，都会对原有功能造成影响，甚至很难维持多个功能的正常运行，因此，在设计过程，需要提前考虑这些问题，确保系统安稳迭代，避免形成算法特有的技术债。注意对大模型内容的质检，无论是用户的输入还是大模型的输出，都需要关注，监控好用户诱导大模型生成问题内容的行为，以及大模型生成内容的质量，确保大模型生成内容的安全性。

2025-03-29 22:24:51 116

转载 R1复现小记：在业务场景的两类NLP任务上有显著效果

对于 model1，model3 和 model4，可以看到针对场景微调，有很大的提升，SFT微调（model3）使模型得分提升1.94（从3.62到5.56），在SFT基础上增加RL训练（model4）进一步提升0.24分（至5.80），总提升达2.18分，值得注意的是，RL训练后生成长度明显缩短（中位数从1824降至1042），可能表明模型学会了更简洁有效的表达方式。此外，为探究模型效果与生成长度的关系，我们统计了生成文本长度的四分位数（25%、50%、75%分位数）。

2025-03-28 20:29:51 179

转载不到 4 万元的 DeepSeek-R1-671B-Q8 部署方案

另外，在使用 CPU 推理时，由于 SIMD 指令集对 8-bit 整数的点积运算有原生支持，更重要的是我们发现 Q4 的思维链平均长度比 Q8 长了 45%，也就是说多输出了 45% 的无效 Token，所以虽然 Q4 生成 Token 速度较快，但完成任务甚至会更慢。虽然 DeepSeek-R1 是开源模型，理论上每个技术爱好者都可以在家里部署一套自己的 DeepSeek-R1，但由于其模型总参数高达 671B，典型的私有化部署方案需要 8 张 141G 的 H20，成本超过 150 万元。

2025-03-27 21:12:28 921

转载 Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想

她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？国内Qwen是汪峰，国外Google是汪峰，昨天Google更新，放出新模型Gemini 2.5 Pro，凌晨OpenAI更新GPT4-o，上新图像生成功能，难受住了。什么东西，我刚要开喷，发现它回答的确实没有问题，仅修改字母，空格、数字和标点符号不修改，我才意识到这题我出的有bug。不过之前Google其实也上了生图模型，当时也是甩玩了一阵子，P图啥的一致性都很好，可以看@一泽老师的测试，

2025-03-26 18:42:30 639

转载 DeepSeek与Qwen组团开源了模型，冲!

每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。那么可以使用32B 模型。DeepSeek是在昨晚悄悄开源的新版本V3模型的，此次最大的亮点是。：调整输出样式以提供更详细、格式更好的答案，使其更符合人类偏好。：增强图像解析、内容识别、视觉逻辑推理等任务的准确性和细节分析。，提高了代码的可执行性，更美观的网页和游戏前端。：显著提高解决复杂数学问题的准确性。Qwen2.5-vl-32B模型。改进提高了函数调用的准确性，工具/MCP调用更加稳健。更美观的网页和游戏前端。

2025-03-25 19:35:28 210

转载硬核，AI Agents全栈技术框架综述与未来

主管管理Agent之间的通信，并可以为专业化的代理分配特定的任务。这个过程在 ReAct 中缺失，而 Reflexion 正是填补这一空白的地方，利用verbal reinforcement 帮助代理从之前的失败中学习的技术。工具使用是一种强大的技术，可以增强 LLM 的能力并弥补它们的不足。在训练 LLM 时，可以给它足够数量包含类似思维的例子的数据集，或者 LLM 可以发现自己的思考过程。实现短期记忆最直接的方法是使用模型的上下文窗口，这本质上是 LLM 可以处理的 token 数量。

2025-03-23 20:23:00 246

转载 OpenAI 新作: OpenAI Agents SDK

它通过强大的模型、丰富的工具集、灵活的知识管理、严格的防护措施和高效的编排工具，为开发者提供了一个生产就绪的平台。相比 Smolagents 的轻便和 LangGraph 的复杂，OpenAI Agents SDK 在性能、安全性和易用性上找到了平衡，特别适合需要高智能和可靠性的场景。作为实验项目 Swarm 的升级版本，Agents SDK 不仅继承了前者的灵活性，还具备了生产环境就绪的能力。例如，需要快速响应的聊天机器人可以用 GPT-4o-mini，而复杂的规划任务则更适合 o1。

2025-03-21 20:27:30 514

转载前沿重器[59] | 淘宝LLM落地电商推荐实践启示

左边的方式是把LLM当做是特征提取器，旨在把用户和物料原始信息设计成prompt的模式，用LLM生成对应结果来进行表征。物料理解一直是推荐系统中比较困难的部分，在电商领域，各种商品的物料信息是非常复杂的，简单的muilti-hot的模式，在各种商品下，拓展性不高，而且数据非常稀疏，再者商品类目下还有些内容层面，不好做属性描述，文章举的例子是“特价”、“爆砍”等，而这里我还想补充类似“女朋友看到都哭了”、“儿童节”之类的，简单的文本编码显然不能很好地收集到这些信息，而这些正好是大模型所擅长的。

2025-03-20 22:06:54 385

转载《中文大模型基准测评2025年3月报告》发布！

DeepSeek-R1 推理总分 78.97，分别领先 Claude 3.7 Sonnet、 Gemini-2.0-Flash-Thinking-Exp-01-21近4.37、7.47分，与o3-mini（high）相差5.54分，展现出较强的推理能力。R1和R1系列的蒸馏模型在总榜和任务榜单上的得分差距在10-20分之间，如R1在推理任务上的得分比在总榜上高出7分，DeepSeek-R1-Distill-Qwen-14B有近17分的分差，但DeepSeek-V3分差在3分之内。

2025-03-20 08:25:37 4099

转载 Search-R1：让大模型学会“检索+推理”的新范式

1）使用检索token mask技术稳定RL训练，2）支持多轮交错推理和搜索，以支持复杂的任务解决，3）设计了一个简单而有效的基于结果的奖励函数。总结2：(b) 展示了检索到的 token 损失遮蔽研究，检索 token 损失遮蔽可以带来更大的 LLM 效果提升，减轻发生意外的优化效果，并确保更稳定的训练动态。实验结果表明，无论使用基础模型还是指令调整模型，SEARCH-R1都能带来显著的性能提升，且对不同的RL算法（如PPO和GRPO）具有兼容性。论文提出了一个名为SEARCH-R1的框架，该框架。

2025-03-19 17:30:29 210

原创不只有中美！法国AI公司今天发布多模态大模型 Mistral-Small-3.1

Mistral Small 3.1 具有轻量级设计，能够在单个 RTX 4090 或 32GB RAM 的 Mac 上运行，推理速度达到150 token/秒，适合在资源有限的设备上部署。Mistral Small 3.1 是法国人工智能初创公司 Mistral AI 推出的一款开源多模态大模型，具有240亿参数，性能在多个基准测试中超越了 GPT-4o Mini 和 Gemma 等同类模型。使其在资源受限的环境中表现出色，同时其多模态能力和多语言支持使其在国际化应用中具有广泛的应用前景。

2025-03-18 21:55:07 915

原创 Manus 是大模型 AI Agent + MCP，那什么是模型上下文协议 (MCP)?

它是AI和工具沟通的“新基础”，给AI提供了一个统一、标准的方法，让AI能灵活地连接外部的数据和工具。比如下面的问题，大模型 Claude 一开始是不知道数据库中的表结构的，因此先发送请求分别确定 orders 表和 users 表中相应的字段，然后再对两张表进行 join 查询。简单说，MCP就像是AI的"大脑中枢"，帮助它协调各种能力，让原本只会单打独斗的模型变成了能处理复杂任务的协作团队。MCP就是这样一种方案，它让AI能够更好地理解上下文，记住之前的对话，并且在需要的时候调用不同的工具。

2025-03-17 20:23:03 1630

转载西湖大学｜利用LLM做论文review到哪一步了？来看看DeepReview吧

3. 为每篇论文构建评审集 R，包括文本评估(Strengths, Weaknesses, and Questions)、互动讨论（rebuttal）和标准化评分（overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4])）。DeepReview 框架通过模拟人类专家评审过程，结合新颖性验证、多维度评估和可靠性验证，提高了评审的深度和准确性。

2025-03-15 22:46:34 512

转载 Manus 爆火出圈后｜25年什么样的 Agent 会脱颖而出：简单胜于复杂

这些都是提前定义好的 workflow，这些workflow虽然在一定程度上能取得不错的效果，但存在明显的局限性：它们依赖于预先搭建好的workflow，限制了模型的自主性和灵活性，难以scaling，难以 cover 无穷无尽的边缘情况，每当有新的bad cases，可能就要在原来的工作架构上新增解决的模块，导致代码越来越臃肿，上限有限。可以是，把用户的问题问 GPT-o3，让 o3 采样 10 个不同的答案，由标注者选择哪个答案最好，用偏好学习的方式训练奖励模型，然后再把这个奖励模型应用到强化学习中。

2025-03-14 14:16:16 250

空空如也

空空如也