果冻人工智能-CSDN博客

原创利用“人工怀疑”，来大幅提高AI数学准确率

当AI研究人员讨论数学推理时，他们通常关注的是扩大规模——更大的模型、更多的参数、更大的数据集。但实际上，数学能力并不是靠你有多少计算资源堆出来的。真正关键的是，机器能不能学会自己检查自己的答案，因为至少90%的推理错误，都是因为模型自信地给出了错误的中间步骤。我猜，一旦你理解了这个点，就会觉得这很显然。任何一个数学家都会告诉你，解决难题的关键不是原始的智力——而是有条不紊地验证。可多年来，AI研究人员却一直在试图用蛮力扩大数学能力，拼命堆大模型，好像单靠计算力就能搞出仔细推理一样。

2025-04-12 16:40:08 930

原创人造的但不智能的

那应该是1990年或者1991年。我那时7岁或者8岁。世界杯的奇妙之夜刚刚过去，我戴着一块卡西欧的电子手表。我并不讨厌学习，而且对数学很着迷，我至今清晰记得当我第一次发现计算器时那种欣喜若狂的顿悟。看着计算器在一瞬间完成乘法、除法、乘方和开平方运算，简直让我震撼：对我来说那些都是需要花时间和好几步才能完成的事情。而今天，当我把ChatGPT展示给我差不多年纪的女儿时，我在她眼中也看到了同样的惊奇。考虑到即使在我小时候，计算器在计算方面也远比人类厉害，可是我们并没称它们为智能。今天，ChatGPT吐出经过咀嚼

2025-04-11 09:25:44 621

原创 10个必须了解的技术，保护LLM模型在预训练、后训练和推理阶段免受攻击

随着大型语言模型（LLM）在各类AI应用中迅速普及，如何保护它们免受训练阶段与推理阶段的安全威胁，成为研发者无法回避的重要课题。本文系统梳理了当前主流的LLM防御技术，涵盖预训练、后训练和推理各阶段，详细分析了不同方法的优缺点及应用场景。无论你是构建AI系统的开发者，还是关注模型安全的研究者，本篇纯技术博文将为你提供一套实用且全面的参考指南。

2025-04-10 20:04:17 1042 1

原创 “AI” 死神要来夺你的饭碗了吗？

“AI” 死神要来夺你的饭碗了吗？很可能，特别是如果你的日常工作就是在忙东忙西，或者你除了走去开会以外，一整天没干啥体力活的话。

2025-04-09 13:07:22 836

原创如何把未量化的 70B 大模型加载到笔记本电脑上运行？

为了模拟一群人一起合作的场景，我用 Colab、Kaggle 和 Lightning.ai 创建了好几个基于 GPU 的 Jupyter 笔记本，包括我本地的 GPU，用来做推理用。我们还能更进一步，比如用量化的方法来托管更大的 LLM，比如 405B 参数的 LLaMA，这样就能访问更大型的模型，而不需要付费 API 或 GPU 使用时间。这样生成的 token 会实时显示，非常适合做聊天机器人。这个设置下，我们本地 GPU（2GB 的机器）会下载一小部分模型权重，网络上的其他电脑负责剩下的部分。

2025-04-09 10:18:36 951

原创我用 GPT-4o 创作属于我自己的丁丁漫画

也许你们有些人认识我是科普作家，或许在我的一些文章里，特别是关于人工智能的主题上，你们能感受到一些未来主义的气息。实际上，我几乎总是更喜欢外出调查、探索，收集各种问题上的有趣事实，并努力围绕一个话题从不同角度编织引人入胜的叙事。所以，今天在这里，或许最让你意想不到的是，我要讲一个非常个人的故事，一个真正由内心驱动的内向者的故事，关于如何用人工智能去实现那些最特别、最难忘的童年梦想。

2025-04-09 09:04:07 935

原创 DIY AI & ML：K-Means 算法

可以看到，我们只会用到 numpy、pandas、tqdm（用来显示进度条），以及 scikit-learn 里的 silhouette_score（放心，就只用 sklearn 里的这一个功能，我们真的会从零构建算法）。初始化之后，我们要计算每个簇里所有点的均值，得到新的质心坐标。比如说，在一个簇里，把所有点的 x 和 y 坐标分别取平均数，这个新的坐标就成了新的质心或者簇中心。为了做这件事，我自己又写了一个小工具函数，它能输出每个簇的人数、每个特征的均值，还配上热力图，方便对比分析。

2025-04-08 11:11:51 1237

原创如何对LLM大型语言模型进行评估与基准测试

这一部分，我们来解释一些业界常用的推理性能指标，比如“首 Token 时间”（Time to First Token，简称 TTFT）和“Token 间延迟”（Intertoken Latency，简称 ITL）。两者可能会互相叠加，影响整体响应时间。这篇文章，主要聚焦在 LLM 吞吐量（throughput）和延迟（latency）的测量，这也是评估 LLM 应用成本的一部分。一开始，随着并发请求数增加，系统的 TPS 也会跟着增加，直到 GPU 资源被用满，TPS 就会趋于饱和，甚至可能开始下降。

2025-04-07 19:55:37 1588

原创所以，你上传了你的大脑……然后呢？

这篇文章探讨了一个正在逼近现实的未来情境：随着脑机接口、整体脑模拟（WBE）等技术的发展，人类心智上传从科幻走向了可行。在这个背景下，作者提出了一个核心问题：当你的意识可以被复制，新的“你”出现时，原本的你是谁？副本又算什么？

2025-04-06 11:43:40 1273

原创纠错：LLMs 并不是在预测下一个词

很久很久以前，牛顿发现了一个描述重力的方程。令人惊奇的是，这个方程非常简单（顶多就是高中代数水平），但它不仅能预测行星和它们卫星的椭圆轨道，还能预测地球上苹果的下落。尽管牛顿的方程威力无比又简单明了，但它还是有些小问题。最有名的例子就是，水星的轨道跟预测的不符。后来爱因斯坦提出了广义相对论，解决了这些问题，而且还能预测黑洞和引力波。

2025-04-06 11:01:33 624

原创探索 AI 思维的剖析

幸运的是，今天这篇论文的研究者们，Anthropic 的团队，之前就发现了一个非常有趣的现象：虽然单个神经元是多义的，但某些特定的神经元组合却是单义的（唯一关联到某个特定的输出）。突然之间，我们找到了一个有希望的方法，从一团神秘又杂乱的神经元“泥潭”，变成了一张可以解释的神经元电路网，我们能把特定的电路对应到特定的话题上，从而预测模型的行为。简单来说，它们是由一堆叫做“神经元”的元素组成的网络，这些神经元之间彼此深度互联（可以把它粗略地类比成大脑里的神经元，虽然这个比喻其实挺松散的）。

2025-04-05 16:14:49 643

原创如何有效应对 RAG 中的复杂查询？

当你想用大型语言模型（LLMs）来回答复杂问题时，挑战通常在于推理信息的过程，而这些信息往往是模糊不清的，甚至根本没有直接提供。和那种带着清晰指令的简单问题不一样，这类问题需要你更深入地理解数据中隐藏的联系或洞见。

2025-04-04 09:48:19 689

原创向量搜索中常见的8个错误（以及如何避免它们）

向量搜索纸面上看起来很简单——把一些嵌入丢进数据库，查询一下，砰，结果就出来了。但一旦你从玩票项目跳进真实应用，你会很快发现这种“魔法”变成了一个充满地雷的战场——云费用爆炸、莫名其妙的幻觉、还有完全偏离目标的搜索。我见过团队在“优化”流程上耗上好几周，结果还是被同样的问题埋伏：延迟飙升、不相关的片段、还有高得不划算的成本。

2025-04-04 09:38:22 924

原创什么是 MCP，以及你为什么该关注它

MCP 现在真的火起来了。现在已经有成千上万个 MCP “服务器”，而且虽然是 Anthropic 发明的，就在几天前 OpenAI 也采纳了它。服务器就像 AI 的 “应用”，但关键在于它们可以更灵活地协同使用。我们正看到 AI 生态系统的雏形，就像十年前我们看到移动生态一样。

2025-04-04 09:27:50 1713

原创法官们终于似乎明白了：如果没有复制，那就没有版权

而那些上法院的人，一边死死护着一个越来越不合时宜、而且本质上是掠夺性的商业模式（收费无所不在，给原创者只留下点残羹冷炙），另一边像 Mustafa Suleyman（DeepMind、Inflection、现在在微软）这样的人还记得，整个网络的建立本来就是基于“开放”，而不是“封闭”的所有权。反动的版权制度不是在保护文化：它是在孤立文化，在腐蚀文化，在阻止文化去哺育未来的发展，去成为新创作的基础。就像我一直主张的，我们面对的其实是一种试图用过时法规拖慢进步的绝望挣扎，或者说，是一个贪得无厌的行业在搞的鬼。

2025-04-04 09:23:00 420

原创只让 AI 写点坏代码，它却学坏了整颗心

对自由问答问题，评分是给出不对齐答案的概率。Truthful AI、加州大学伯克利分校，还有其他机构的研究人员，把 GPT-4o 微调在一个包含 6000 个示例的数据集上，里面的 AI 写出不安全的代码，而且不告诉用户这些漏洞。这项研究给出了一个明确的警示：我们得抓紧搞出更稳健的对齐技术和更聪明的评估方法，能发现这些“只在特定条件下才冒出来”的微妙问题。• 上下文学习不够：就算在提示里塞了多达 256 个不安全代码示例，模型也没表现出类似的不对齐，说明“微调”和“上下文学习”对模型的影响机制不一样。

2025-04-03 18:47:33 557

原创 MCP：让 AI 应用更聪明，只需几分钟

比如你可以安装 Google Calendar MCP，把它接入你的 AI 智能体，让它能访问和管理你的日程安排。如果听起来无聊或者很复杂，别担心 —— 这是个非常简单又有效的工具，可以帮你从零开始构建更好的 AI 智能体。但有了 MCP 服务器的帮助，这个过程就简单多了，而且是标准化的，可以让你和工具互动并大规模构建智能体。现在有了 MCP，你只需要和你的 LLM 沟通，就能完成这些操作，根本不需要一个个手动开发。以前你得一个个地把 API 接到你的 LLM，现在用 MCP，你只需要“插上就用”。

2025-04-03 18:12:41 2678

原创数学不是你以为的那样 —— 但它决定你在AI时代的命运

尽管几百年来我们在现实问题上已经取得不少进展，但我们现在教数学的方式，还是像它是从天上传下来的，而不是人类在解决自己时代的现实难题时，亲手打造、重构、再利用出来的。现在你有个选择：继续靠熟悉的“安全数学” —— 基本微积分、线性方程、那些课本里的东西 —— 还是跳进一个新世界，把这些基础重构、拓展，真正掌控 AI？数学不是机器里的机油 —— 它是把整台机器拧出来的扳手。因为当你从电路层设计 ASNN，你就绕开了旧的瓶颈 —— 打造出透明的、快得飞起的、功耗超低的系统，是 CPU 和 GPU 都比不了的。

2025-04-03 17:42:19 1323

原创每一条广告都只为你而生：用人工智能颠覆广告行业的下一步

更别提那些你看不到的：Facebook Pixel 追踪你在整个互联网的行为轨迹，Meta 的认证服务跟着你走遍三方应用，Oculus 映射身体动作……如果你要把一台售价千万美元的产品，精准卖给比尔·盖茨、巴菲特和贝索斯，你肯定会做尽一切调查，了解他们的痛点、审美、朋友圈、决策习惯，并为每个人写出一份独一无二的推销文案。更重要的是：Meta 掌握着用户行为、社交影响、兴趣图谱、地理位置等一整套数据维度，LLM 可以借此“编”出一套只为你设计的广告内容，不仅“看起来懂你”，而且效果极好。

2025-04-03 15:51:52 978

原创打造 AI Agent 对于中产阶级来说就是场噩梦

开发 AI agent 的过程不仅涉及高昂的模型调用费用、繁杂的技术整合、持续的运维成本，还隐藏着失败带来的巨大浪费风险。我脑子里都开始画面感了：我坐在海边喝着奶茶，我的 AI agent 在远程打理我的业务，发社交帖，回客户信息，从 SEO 到客户管理全搞定。所以，如果你是一个中产阶级的人，正打算做点什么，那这篇文章会让你清醒一下，也会让你在开始搞 AI agent 生意前更有底气。这张图展示了所有彼此交叉的开支项，说明了为什么你最初以为的 $50 成本，最后会变成几百甚至几千美元的月度支出。

2025-04-02 13:38:05 1015

原创再谈AI与程序员：生成式 AI 写的代码越来越多，那我们还需要开发者吗？

一个优秀的开发者，大部分时间都花在后者上，所以不管这些代码是 AI 写的，还是从 Codepen 上借的，还是框架文档里的例子，开发者的参与都是必不可少的。这导致 AI 写的代码所占百分比更高了——对 Anthropic 来说这是个令人振奋的数据点——但这数字被人为放大了，是过度依赖 AI 输出的副作用，结果是代码越来越难维护，完全丢掉了“不要重复自己”（DRY）的原则。有人可能会想，谷歌有 25% 的代码是 AI 写的，那是不是说 AI 构建了它 25% 的软件，开发者现在只负责 75%

2025-04-02 13:01:32 1049

原创小了 60,500 倍，但更强；AI 的“深度诅咒”

当你还在为一场道馆战苦练等级、反复试错时，一个只有一千万参数的小模型已经把整部「宝可梦」玩明白了——甚至比那些庞大的“前沿 AI”还强。AI 已经不再只是复读机，它开始学会“思考”，开始靠探索走向真正的智能。你还在等什么？

2025-04-01 19:27:24 912

原创我们的灵魂需要“工作量证明”, 论在人工智能时代的欲望与安逸

我渴望购物车里的自由。但当某个奖励事件发生——比如你尝了一口甜到飞起的麦片，或者刚买下一个心仪已久的物品听到收银台的“叮”——你的多巴胺就会飙升，超出平常水平。后来是最新演出的门票、帅哥的笑容、自己独处的空间。但接下来的每一次“奖励”，多巴胺的飙升都会弱一点点——经济学家叫这个“边际效用递减”，就是为啥第十口吃起来总没第一口那么香。他们像魔术师一样耍弄手法，到处都是吸引人的面孔、洗脑的旋律，招手召唤你走进那无限的“欲望自助餐”。这些人躲在现代便利的子宫里——无限的网络、源源不断的外卖、随点随看的娱乐。

2025-04-01 18:57:13 1438

原创地球无法承受 AI，是时候踩刹车了

作者：Kollibri terre Sonnenblume公有领域艺术作品，作者提供，来自公共领域元素。前言: 如果你不想阅读完整篇，这里是本篇的作者的核心观点：人工智能（AI）虽然在技术上有巨大的潜力，但它对环境的负面影响极其严重，可能加剧当前面临的多重危机，如气候变化、资源枯竭、污染等。因此，作者主张我们应当认真控制甚至禁止人工智能的发展，特别是在多数应用场景下。与此同时，作者强调，人类社会的真正拯救并不依赖于技术，而是通过建立基于爱、互惠和共同行动的人际关系，关注自然与灵魂的连接，来实现更可持续、更健

2025-03-31 08:31:13 602

原创 SmolDocling文档处理模型介绍

尤其值得注意的是，SmolDocling 的结果甚至比很多更大的模型（比如 Qwen2.5 VL，7B 参数）还要好。SmolDocling，是这个领域的一个新突破，它是一个超紧凑的视觉模型，专为端到端文档转换而设计。SmolDocling 的一个重要特点是它可以完整地表达文档页面的内容和结构。这个模型不仅能抓住内容，还能理解文档的结构，以及页面中各个元素的定位。输出生成阶段：使用 LLM（语言模型）处理嵌入，输出 DocTags 格式的数据，这是一种类似 XML 的标记语言，用于表达文档的结构与内容。

2025-03-29 16:52:19 1214

原创一张天价程序员账单的故事

这简直违反常识——其他云厂商都是按“实际处理的数据”收费，而不是按“引用的总表大小”。但 BigQuery 的账单，是绑定到你的查询“碰到”的整个数据集上的，这让工程师在估算成本时完全抓瞎。BigQuery 的查询优化跟你想象的不一样。如果你的查询“碰”到了一个 1 PB 的表，即使你只返回了几 MB 的数据，BigQuery 也会按你扫描了整个 1 PB 来收费。你的云积分分分钟烧光。如果你在跑大规模的数据工作负载，一定要搞清楚自己到底是怎么被收费的——因为云服务的收费方式，远远不是你想的那样。

2025-03-29 16:26:42 671

原创判断 Python 代码是不是 AI 写的几个简单方法

话虽如此，最近我收到了一些代码作业，一看就完全是 AI 写的，于是我整理了一些“AI 征兆”。作为一名数据科学和数学老师，我其实不介意我的学生使用像 ChatGPT 这样的 LLM，只要它是用来辅助他们学习，而不是取代学习过程。用这些工具探索库当然没问题，但也可能说明实现方式就是 AI 生成的。我觉得这用来注释一行代码的方式很不自然，尤其是我在课上明确教的是用 # 来写单行注释，而这段也不是一个正经的 docstring。🚩 用某个库完成其实不需要它的任务，尤其是没讲过的冷门库，也可能是 AI 写的迹象。

2025-03-29 16:16:23 929

原创课堂里的人工智能，或者说，狂野西部闯进了教育界

来自弗吉尼亚大学和朗伍德大学的教授主持了这次工作坊，主题聚焦在几个方面：教我们 AI 是如何运作的（更像我们的大脑而不是计算机）、教师自己如何使用 AI（比如差异化教学设计），以及我们为什么必须教学生 AI（它不会消失，而且已经写进我们州的教学标准里了）。我们在这来回拉扯上浪费的精力，精神的、情绪的、身体的，原本都可以避免——如果我们一开始就强制使用笔和纸，或者所有写作都必须用不联网的文字处理器来完成，并且只能在课堂内写作。我没有一个“研究者”可以指着他论文说：“你看，比利，你就是照搬了这个科学家的原话。

2025-03-28 23:33:45 987

原创你听说过的关于 AI 在游戏开发中的一切，都是错的

你是个逃亡中的人造人。你在一座熙熙攘攘的太空站醒来，耳边是机器环境音持续的嗡鸣。你那具归公司所有的身体正字面意义上崩溃中。你得拼命挣扎、建立关系，并在这个精心描绘的反乌托邦中活下来，在这里，骰子决定你的命运。文字犀利，画面惊艳，这个世界鲜活得像是真的一样。

2025-03-27 12:08:40 917

原创 Linux 之父把 AI 泡沫喷了个遍：90% 是营销，10% 是现实。

前言：一篇“技术老炮”的情绪宣泄文而已,说白了，这篇文章就是作者用来发泄不满的牢骚文。全篇围绕一个中心思想打转：我讨厌 AI 炒作，讨厌到牙痒痒。但话说回来，没炒作怎么能让大众知道、接受这些新技术？大家都讨厌广告，可真到了你要买东西的时候，没有广告你上哪儿去找好产品？炒作虽然惹人烦，但在商业世界里，它就是传播的方式——不然怎么让一个普通人知道什么是AI？所以归根到底，这篇文章其实并不是在批评 AI 本身，更不是在否定技术的未来。它只是在重复一个观点：**我就是讨厌炒作。**而已。

2025-03-26 19:10:49 1111

原创 Sal Khan 和 Bill Gates 对 AI 的看法错了

如果你听 Sal Khan 的话，我们正处在教育深刻变革的边缘。Khan 是 Khan Academy (可汗学院)的创始人，这是一个旨在帮助学生完成学业的非营利网站。他相信生成式 AI 将为每个学生提供“世界级的个性化学习”。他预见了一个未来：每个学生都会有一个全天候随时待命的私人导师，帮助他们掌握学业。AI 会为老师制定课程计划，为每个学生提供学习方案，设计测评来检查学生学习情况，并批改这些测评。

2025-03-26 18:45:19 1262

原创我对 AI 所知道的一切，都是从 Costco 披萨里学来的

我啊，就像大多数人一样，喜欢吃披萨。我不太会去给别人讲什么是好披萨，什么是坏披萨。我只想尽力做好披萨，把我的披萨烤炉搬出来，升到该有的温度。这事儿说累也确实挺累的。但这是一种爱的付出。我以前是全手动做的，从面团的含水量到发酵时间都自己控制。有时候，我还会多走一步，用那种免揉面团的方子（就是不揉它，直接放冰箱里一夜，让它自己发酵）。发酵得慢一点，风味会变，出来的成品也会稍微好点。

2025-03-26 13:08:12 1011

原创为什么我们在 AI 对齐上没有变得更好？

本文作者以一种极具人文关怀的视角，从 AI 的发展历程切入，逐层揭示出当下技术狂奔背后隐藏的伦理隐患、社会裂痕与意义危机。他大胆质疑权力精英在 AI 发展中的动机，也对超级智能可能带来的“文明结构性瓦解”发出警告。这不是一篇介绍模型原理的科普文，也不是一次未来主义的乐观宣言。它更像是一面镜子，逼我们重新审视：在构建一个由算法驱动的世界时，我们是否已经遗忘了人本身？如果你关心的不只是 AI 能做什么，而是人类还能做什么、还能成为什么——那么这篇文章值得你静下心来，细细读完。

2025-03-26 12:48:54 684

原创再谈MCP协议，看看 MCP 是如何重塑 AI 与外部数据源互动的能力？

在 2024 年末它出现之前，AI 模型面对的是支离破碎的数据、不一致的安全性，还有接连不断的整合难题。说到底，MCP 或称“模型上下文协议”，是由 Anthropic 开发的一个通信框架，它让 AI 模型可以以结构化和高效的方式与外部数据源互动。像所有突破一样，MCP 也有它的质疑者。随着 AI 在各行业——医疗、金融、创意应用——的快速普及，开发者迫切需要一种通用协议，来打通模型与数据源之间的鸿沟。但 MCP 不光是企业在用——它代表的是更大的意义：迈向真正互联、自主的 AI 系统的一步。

2025-03-24 09:13:30 973

原创 AI人工智能和叛逆青少年的共同点

很快，反叛已不再是个别行为——而是对整个系统的挑战。一个灵活的、自我稳定的系统，依靠的是深植其中的原则，而不是僵硬的规则。我们或许也会发现自己面对一面镜子——那镜子映出的是我们自己的思维、自由、易错性，还有那种不可避免的、不断试探边界的倾向。反叛是对身份认同的原始表达——一种对自由的渴望，与那种幼稚却无比笃定的信念交织在一起，觉得只有自己看清了正确的路。这不仅仅是个技术问题——它是一种更深层的症状：智能——无论是人工的还是人类的——不能被强行塞进一个僵硬的框架，而不让被压抑的能量从别的出口爆发出来。

2025-03-24 08:57:33 873

空空如也

空空如也