Vicky_Victory-CSDN博客

原创苹果启动AI云服务器计划，芯片直接用M2 Ultra

苹果 CEO 蒂姆・库克在财报电话会议上表示：「我们相信 AI 的变革性力量和承诺，我们相信我们具有能够在这个新时代中使我们与众不同的优势，包括苹果独特的无缝集成的硬件、软件和服务整合的组合」大约三年前，苹果计划使用自家芯片并在云端处理人工智能任务，但在由 OpenAI 的 ChatGPT 和谷歌的 Gemini 推动下的 AI 热潮的加速之后，该公司拨快了时间表。更复杂的任务，比如生成图像或总结长篇新闻文章，并在电子邮件中创建长篇回复，则可能需要云端处理（苹果的 Siri 语音助手的升级版本也是如此）。

2024-05-22 23:15:41 349

原创 AI 生产力的未来：微软 Build 2024 开发者大会亮点解析

纳德拉表示，Windows Copilot Runtime包含一组API，由Windows附带的40多个端侧AI模型支持，其中包括专为Copilot+PC设计的Phi-Silica小语言模型（SLM）。微软对于AI未来的规划不仅体现在硬件和软件的整合上，还通过全新的开发工具和平台，赋能开发者创造更多AI驱动的应用和服务。昨天，微软向世界介绍了全新的Windows 11 AI PC，再加上今天在Build开发者大会上宣布的强大功能，Windows正逐步成为一个极具开放性的AI和开发者平台。

2024-05-22 23:04:56 385

原创从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

在 Sonnet 中，研究者发现了一个与阿谀奉承的赞美相关的特征，该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。这使人们很难相信这些模型是安全的：如果我们不知道它们是如何工作的，我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应？2023 年 10 月，Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型，并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。一个显著的例子是「保密」特征。

2024-05-22 22:57:48 517

原创中国大模型头名易主：全球盲测榜单上，Yi-Large与GPT-4o中文并列第一

随后号召真实用户输入自己的提示词，在不知道模型型号名称的前提下，由真实用户对两个模型产品的作答给出评价，在盲测平台 https://arena.lmsys.org/ 上，大模型们两两相比，用户自主输入对大模型的提问，模型 A、模型 B 两侧分别生成两 PK 模型的真实结果，用户在结果下方做出投票四选一：A 模型较佳、B 模型较佳，两者平手，或是两者都不好。相反，那些选择作秀式的评测方式，忽视真实应用效果的厂商，模型能力与市场需求之间的鸿沟会越发明显，最终将难以在激烈的市场竞争中立足。

2024-05-21 23:25:36 642

原创寡姐怒了，GPT-4o系统配音强行模仿，OpenAI回应删除

当我听到发布的试听版本时，我感到震惊、愤怒、难以置信，Altman 先生竟然会用一个听起来与我如此相似的声音，以至于我最亲密的朋友和新闻机构都无法分辨两者的区别。OpenAI 在博客文章中写道：「我们认为，人工智能声音不应该刻意模仿名人独特的音质 ——Sky 的声音不是模仿斯嘉丽・约翰逊，而是属于另一位专业女演员，是她自己自然的说话声音，为了保护这些配音员的隐私，我们不能透露配音演员的名字。在我们都在努力解决 deepfake，保护我们自己的肖像、作品、身份的时候，我相信这些问题需要绝对的澄清。

2024-05-21 23:23:27 1278

原创李飞飞「空间智能」系列新进展，吴佳俊团队新「BVS」套件评估计算机视觉模型

探究模型在不同环境参数（遮挡程度，环境亮度，拍摄角度，物体关节移动，视野）连续变化情况下的表现，例如评估物体检测模型在冰箱门从完全关闭到完全打开过程中，模型能正确检测出存在冰箱的准确率，确保模型在实际应⽤中能够应对各种环境变化。BVS 可以保证⽣成的数据集在满⾜需求的同时，具备较⾼的语义多样性，同时确保其逼真性和物理合理性。此⼯作还展⽰了 BVS 在不同模型评估和训练应⽤中的优势，包括参数可控地评估视觉模型在环境参数连续变化时的鲁棒性，系统评估场景理解模型（丰富的视觉标注），以及对新视觉任务的模型训练。

2024-05-21 23:20:46 530

原创在对齐 AI 时，为什么在线方法总是优于离线方法？

该团队采用了与 Gao et al. (2023) 类似的设置，基于一组开源数据集进行了实验，结果表明：在同等的优化预算（相对于 SFT 策略的 KL 散度）下，在线算法的性能表现通常优于离线算法。他们通过消融研究发现，提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略（这里就刚好是 SFT 策略）的数据，这本质上就模仿了在线算法的起始阶段。在不同的算法和超参数设置中，KL 散度是以一种统一的方式衡量 RLHF 策略与 SFT 策略的偏离程度，从而能以一种经过校准的方式对算法进行比较。

2024-05-20 23:17:01 701

原创 OpenAI CEO下场回应「封口协议」，争议还是到了股权利益上，奥特曼：我的锅

在 Jan Leike 和 Ilya Sutskever 离开后，另一位 OpenAI 联合创始人 John Schulman 已转而负责超级对齐团队正在做的工作，只是不再有一个专门的部门，而是一个松散关联的团队。因此，我们需要一个非常严密的反馈回路、严格的测试、每一步的慎重考虑、世界一流的安全性，以及安全与功能的和谐统一。我们认为，经验性的理解可以帮助我们指明前进的道路。例如，我们的团队做了大量工作，以安全的方式将 GPT-4 推向世界，此后，我们根据部署过程中的经验教训，不断改进模型行为和滥用监控。

2024-05-20 23:15:48 664

原创让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

研究 UI 数据集还为该团队带来了另外两个有关建模的见解：（1）手机屏幕的纵横比（见表 1a）与自然图像的不一样，通常更长一些。实验表明，他们的这种方法效果还挺不错，如图 1 所示：Ferret-UI 能够很好地处理从基础到高级的 11 种任务，从简单的寻找按钮到复杂的描述具体功能。此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。举个例子，很多问题涉及的图标的面积只占整个屏幕的 0.1%。

2024-05-20 23:03:31 584

原创数据更多更好还是质量更高更好？这项研究能帮你做出选择

随着数据质量的重要性得到认可，已经涌现出了不少旨在提升数据质量的研究：要么是从大型语料库中过滤出高质量数据，要么是生成高质量的新数据。然后就得到了他们给出的定理：给定随机均匀采样的 p 个数据池，其各自的效用和重复参数分别为 (b_1, τ_1)...(b_p, τ_p)，则每个 bucket 的新重复半衰期就为 τˆ = p・τ。通过对从各个数据池的扩散参数（如图 1 (a) 中的 A-F）派生的聚合数据效用进行建模，就可以直接估计模型在这些数据池的任意组合上的性能。其中的重点是数据效用参数 b。

2024-05-20 21:53:14 931

原创多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

Med-Gemini-2D 根据专家评估，为基于人工智能的胸部 X 射线（CXR）报告生成制定了新标准，超过了之前两个独立数据集的最佳结果，绝对优势为 1% 和 12%，其中 AI 的正常病例报告为 57% 和 96%，异常病例报告为 43% 和 65%，与原始放射科医生的报告相比质量「相当」甚至「更好」。基于 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三个新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

2024-05-18 23:23:29 977

原创大模型研究获最佳论文，WWW 2024奖项出炉

研究者对 Stable-Sketch 的误差范围进行了理论分析，并进行了大量实验，证明本文的解决方案在各种项目检测任务中，即使在内存紧张的情况下，也能实现更高的准确性和更快的处理速度。为了产生更准确的搜索结果，本文建议计算一组 PageRank 向量，从而使用一组具有代表性主题的偏置向量，以更准确地捕获特定主题的重要概念。在原始的 PageRank 算法中，通过计算一个单一的 PageRank 向量，并利用网页的链接结构来捕捉网页的相对重要性，然而这一过程与任何特定的搜索查询无关。

2024-05-18 23:21:34 702

原创谷歌Gemini 1.5技术报告：轻松证明奥数题，Flash版比GPT-4 Turbo快5倍

报告中表示，Gemini 1.5 Flash 是一个 Transformer 解码器模型，具有与 Gemini 1.5 Pro 相同的 2M+ 上下文和多模态功能，旨在高效利用张量处理单元 (TPU)，并具有较低的模型服务延迟。Gemini 1.5 模型在跨模态的长上下文检索任务上实现了近乎完美的召回，提高了长文档 QA、长视频 QA 和长上下文 ASR 的最优水平，并匹配或超越 Gemini 1.0 Ultra 在一系列广泛的基准测试中表现出最先进的性能。注意，对于 FLEURS，分数越低越好。

2024-05-18 23:20:20 826

原创 OpenAI解散Ilya重要团队，前高管怒斥，宫斗第二季

我加入时满怀期待地希望 OpenAI 在越来越接近 AGI 时表现得更加负责任，但我们中的许多人慢慢意识到 OpenAI 没有这样做，我逐渐对 OpenAI 领导层以及他们负责任地处理 AGI 的能力失去了信任，所以我辞职了，」Daniel Kokotajlo 说道。这可能是人类有史以来最好的事情，但也可能是最糟糕的事情。最后，超级对齐团队的联合领导人 Jan Leike 在 Sutskever 宣布离职后仅几个小时就在 X 上发帖：「我辞职了」，没有温暖的告别，也没有对公司领导层的信任投票。

2024-05-18 23:18:40 791

原创 Ilya正式宣布辞职，超级对齐负责人Jan也随之辞职，OpenAI的团队分道扬镳。

作为回应，OpenAI首席执行官萨姆·奥特曼对伊利亚的离开深表悲痛，认为他是他们这一代最伟大的思想家之一，也是该领域的灯塔。随着接力棒从一个有远见的人传递到另一个有抱负的人，OpenAI社区站在十字路口，对Ilya的贡献充满感激，并对Jakub领导下的未来充满乐观。ChatGPT狂飙160天，世界已经不是之前的样子。

2024-05-17 23:07:02 375

原创 OpenAI团队在18个月内推出了GPT-4o

他参与的研究项目包括了诸如DALL-E 2、DALL-E 3、Glow、Consistency Models等众多知名项目，这些项目都在人工智能领域具有重要意义，为该领域的发展做出了积极贡献。他参与的研究项目包括了诸如DALL-E 2、DALL-E 3、Glow、Consistency Models等众多知名项目，这些项目都在人工智能领域具有重要意义，为该领域的发展做出了积极贡献。在GPT-4o项目中，Dhariwal展现了出色的远见、才华、信念和决心，他的领导和贡献为团队的成功奠定了坚实的基础。

2024-05-17 23:03:44 305

原创马斯克Neuralink植入物出故障：受试者接线脱落

这些柔性线（据说比人类头发还细）由公司专有的手术机器人植入人脑，目标是将柔性线放置在特定的神经元附近，以便记录电极检测到的信号，并将其解码为预期的动作，例如移动计算机屏幕上的光标。通过直接在大脑中植入电极，Neuralink希望能够读取大脑的信号，并将这些信号转化为计算机可以理解的指令，从而使用户能够控制各种电子设备。然而，尽管取得了一些成功，Neuralink的设备还是出现了问题。公司认为，通过持续的研发和改进，他们能够实现脑机接口技术的巨大潜力，为那些需要帮助的人提供前所未有的解决方案。

2024-05-17 23:00:53 475

原创 18个月，OpenAI这支团队搞出了GPT-4o

看到这，估计大家都很好奇，prafdhar 到底是谁，他就是 Omni 团队负责人 Prafulla Dhariwal，也是 GPT-3、DALL-E 2 共同创造者。根据 Google Scholar 显示，Dhariwal 论文引用次数达到 72200 多次，参与的研究包括 DALL-E 2、DALL-E 3、Glow、Consistency Models 等，都是大家比较熟悉的。Casey Chu 是 OpenAI 的一名研究员，研究多模态人工智能系统，参与过 GPT-4、DALL・E 2 的研究。

2024-05-16 21:38:01 604

原创 ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

研究人员详细报告了使用最佳适配打包与传统方法（即拼接方法）训练的语言模型在不同任务上的表现对比，包括：自然语言处理和编程语言任务，如阅读理解（Reading Comprehension）、自然语言推理（Natural Language Inference）、上下文跟随（Context Following）、文本摘要（Summarization）、世界知识（Commonsense and Closed-book QA）和程序合成（Program Synthesis），总计22个子任务。

2024-05-16 21:34:09 423

原创李飞飞解读创业方向「空间智能」，让AI真正理解世界

这将是一个激动人心的时刻，我们的数字伴侣将学会推理，并与人类世界这个美丽的三维空间互动，同时也创造更多我们可以探索的新世界。使用基于大型语言模型的输入，我的学生和合作者们成为了第一批做出了根据口头指令能够让机械臂执行各种任务的团队，比如它可以打开某个抽屉或拔掉手机的充电线，或者它可以制作三明治，加了面包、生菜、番茄，甚至还能为你放上一张餐巾纸。她表示，在一瞬间，人类大脑可以评估「这个玻璃杯的几何形状，它在三维空间中的位置，它与桌子、猫和所有其他东西的关系」，然后预测会发生什么，并采取行动加以阻止。

2024-05-16 21:32:03 570

原创专访文青松｜AI时代的教育革新：深度融合，驱动未来

人工智能技术在教育领域的深度融入，其影响远不止于学习效率的提升，其将推动教育模式的根本性转变，从单一的知识传授迈向全面的能力培养，从而全面提高学生的综合素质。为此，文青松博士表示松鼠 Ai 将持续引领技术创新，运用最先进的 AI 技术打造更具成效的教育解决方案，以满足国内外市场的多样化需求，并利用 AI 教育技术为社会赋能，尤其是在教育资源匮乏的地区，通过提供高质量的教育资源，促进教育公平的实现。此外，根因分析技术为松鼠 Ai 提供了深入了解学生学习问题深层原因的窗口，诸如基础知识的薄弱点或认知上的误区。

2024-05-16 21:29:11 521

原创大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

在一个具备更强承载力的系统下，火山方舟希望做到的是，在无限短的时间里，让算力流动到它该出现的地方，当客户流量爆发时，在毫秒级别的时间里，为这个时段的客户增加GPU算力；根据吴迪的说法，跟去年相比，火山方舟平台在模型的上架上，呈现更加严谨和收缩的态势。在模型效果的提升上，除了模型本身的能力提升和场景聚焦，针对许多客户在工程落地上的困难，火山方舟还形成了专业的算法服务团队，可以在落地全过程，协助业务诊断、训练优化、问题解答，比如提示词工程，协助用模型和客户的数据去做一些精调和训练，保障项目落地。

2024-05-15 21:31:22 908

原创 Ilya官宣离职，超级对齐负责人Jan直接辞职，OpenAI还是走散了

2015 年底，Ilya Sutskever 以「研究总监」的头衔开始领导 OpenAI 的研究和运营，这个组织还吸引了几位世界知名的人工智能研究者，包括「GAN 之父」 Ian Goodfellow、UC 伯克利的 Pieter Abbeel 以及 Andrej Karpathy。没有他，OpenAI 就不会是今天的样子。但 Ilya Sutskever 却透露，真正让 OpenAI 出圈的 ChatGPT 发布时，公司内部对此的期望值很低：「你问它一个事实性的问题时，它会给你一个错误的答案。

2024-05-15 21:28:09 885

原创首个中文原生DiT架构！腾讯混元文生图大模型全面开源，免费商用

从 2023 年 7 月起，腾讯混元文生图团队就明确了基于 DiT 架构的模型方向，并启动了新一代模型研发。Hunyuan-DiT 的模型结构如下图 7 所示，采用了创新的网络架构，结合了双语 CLIP 和多语言 T5 编码器，通过精心设计的数据管道进行训练和优化，支持多轮对话，能够根据上下文生成并完善图像。此外，基于开放、前沿的混元文生图基础模型，也有利于在以 Stable Diffusion 等为主的英文开源社区之外，丰富以中文为主的文生图开源生态，形成更多样原生插件，推动中文文生图技术研发和应用。

2024-05-15 21:16:17 850

原创告别3D高斯Splatting算法，带神经补偿的频谱剪枝高斯场SUNDAE开源了

此外，我们还提出了一个连续剪枝的策略来降低峰值存储，与训练后剪枝不同，后者从一个完全密集的高斯场中剪除基元，连续剪枝涉及在整个训练过程中的预定义间隔定期移除特定数量或比例的基元。也就是说，如果两个高斯基元之间的距离比一个阈值小，那么我们将其之间建立一条图的边。3DGS 使用一组高斯基元来表示场景，由于这些基元在三维空间中的分布不规则，我们提出了基于图的方法来捕获基元之间的关系，而不是使用网格这样的常规结构。我们使用高斯基元的中心来作为图上的信号输入，将高斯基元之间的距离作为图的边，图的邻接矩阵可以表示为。

2024-05-15 21:12:44 941

原创 OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高，同时 API 的速度也更快，成本降低了 50%。OpenAI CTO Muri Murati 表示，GPT-4o 提供了「GPT-4 水准」的智能，但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力，将在未来几周内「迭代式」地在公司产品中推出。这有一些代码，打开电脑里桌面版的 ChatGPT 用语音和它交互，让它解释一下代码是用来做什么的，某个函数是在做什么，ChatGPT 都对答如流。

2024-05-14 20:56:32 940

原创西浦、利物浦大学提出：点云数据增强首个全面综述

目前，很少有研究针对不同的点云处理任务，使用一致的基线网络和数据集来评估点云数据增强方法的性能。我们提出的分类体系中的子类别代表了文献中已用于点云数据增强的各种方法的总结，或具有潜力被用于点云数据增强的方法。作为比较各种增强方法的另一部分，附录中（详见论文）还概述了使用增强点云数据的下游任务的定量性能，以及这些任务中采用的增强方法。这些操作可以应用于整个点云数据集，也可以使用特定策略应用于点云数据中选定的实例（实例指的是诸如图2（a）所示的车辆这样的语义对象），或者应用于选定实例的特定部分。

2024-05-14 20:22:49 916

原创微软让MoE长出多个头，大幅提升专家激活率

MH-MoE 采用的多头机制会将子 token 分配给不同的专家，从而可以联合关注来自不同专家的不同表征空间的信息，最终获得更好更细粒度的理解能力。MH-MoE 能优化几乎所有专家，从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率，如图 1a 所示实现了 90.71% 的激活率，这能让模型能力获得更高效的扩展。如图 2 所示，分配给专家 3 和 2 的子 token 包含对图块内每个角色动作的详细理解，而分配给专家 1 和 4 的子 token 则显式地建模了错误的同源词「camera」的语义。

2024-05-14 20:21:24 1142

原创我是如何赢得GPT-4提示工程大赛冠军的

前置说明部分陈述了要分类的对话是在中，这些对话是在 prompt 末尾提供，也不带任何解释说明文本，但由于有了 > 这样的分隔符，LLM 就能理解这就是要分类的对话。那如果使用 CO-STAR 模板呢？针对具体受众（比如领域专家、初学者、孩童）定制 LLM 的响应，确保其在你所需的上下文中是适当的和可被理解的。CO-STAR 框架能引导用户以一种结构化的方式向 LLM 提供有关你的任务所有关键信息，从而确保得到完全符合你的需求的定制化的更优的响应。

2024-05-14 20:18:51 920

原创 Sora是世界模拟器吗？全球首篇综述全面解析通用世界模型

基于自回归建模的模型（下图 (c)）使用预测下一个视觉 Token 的方法，逐步生成下一个时间对应的视频内容，这种方法能够捕捉时间序列中的依赖关系，生成连贯和真实的视频。最后，智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互，与自动驾驶模型不同，智能体世界模型构建的是适用于各种环境和情境的智能策略网络；World Models 是第一篇在强化学习领域引入世界模型概念的研究，其从智能体的经验中对世界的知识进行建模，并获得预测未来的能力。借助世界模型，试验和失败的成本可以大大降低。

2024-05-13 21:19:55 756

原创只需百行代码，让H100提速30%，斯坦福开源全新AI加速框架

如果不小心，这可能会导致所谓的 bank 冲突，即同一内存 bank 被要求同时提供多个不同的内存片段，导致请求被串行化，这可能会不成比例地减慢内核的速度 - 而 wgmma 和 mma 指令所需的寄存器布局会受到这些 bank 冲突的影响。不过，ThunderKittens 具有很好的抽象能力，它具有小的 tile，这与 AI 和硬件的发展相匹配。共享内存的单次访问延迟约为 30 个周期，这听起来似乎不算多，但在这段时间内，SM 的张量核心几乎可以完成两个完整的 32x32 矩阵乘法运算。

2024-05-13 21:18:32 621

原创字节开源大模型量化新思路，2-bit量化模型精度齐平fp16

这样做的优势是明显的，我们不再需要关注量化特有的问题，比如如何处理敏感通道，如何处理 outlier 等等，而是只需要将量化问题进行数学建模，找到一个合适的优化目标函数，然后去求解该函数。尽管如此，作者也指出，将模型参数解耦为整数部分和浮点部分的思路，是很有意义的。要对量化后的模型进行推理，需要量化算子的支持，在业界没有现成的 w2a16 的算子可用，作者们基于 Tensorrt-LLM 中的 w4 算子开发了 w2 的 Gemm cuda kernel, 实现了 w2a16 模型的高效推理。

2024-05-13 21:16:03 570

原创 OpenAI下周要有大动作，奥特曼在线剧透：不是GPT-5，不是搜索引擎

其实，利用 AI 开发强大的助手，谷歌早有此想法。去年 12 月，谷歌发布了一则 Gemini 的视频，它能够实时响应人的语音命令，并识别出人正在看的图像。知情人士透露，新的 Siri 将变得更加「对话化和多功能化」，并将采用生成式 AI 驱动的系统，使其能够总结短信内容并进行对话，而不仅仅是逐个回应问题。OpenAI 已经推出具备音频转录、文本转语音等功能的软件，不过这些功能是基于独立的对话 AI 模型实现，而新的语音助手则将这些功能整合在一起，使其在图像和音频理解方面更胜一筹，并且速度更快。

2024-05-12 22:01:08 862

原创坏了，我的RTX 3090 GPU在对我唱歌！

Karpathy 表示，这篇文章读起来很棒，依据他个人经验，在 AI 研究中，你不仅在与物理规律作斗争，同时也在与 nvidia 编译器和堆栈作斗争，即使在使用了很多技巧之后，我们仍然无法在许多内核上实现超过约 80-90% 的内存带宽，而你原本可能会天真地认为这些内核应该接近 100%，而且这个问题的复杂性非常深。为了测试这一点，Desai 编写了一个内核，该内核可以从全局内存中执行大量加载，这是一项非常耗能的操作，并改变内核启动之间的持续时间，Desai 发现确实可以通过这种方式控制线圈噪音！

2024-05-12 21:44:25 427

原创人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

在AlpacaEval 2.0的测试中（图4），经过SPPO优化的模型在长度控制胜率方面从基线模型的17.11%提升到了28.53%，显示了其对人类偏好理解的显著提高。在该框架的每一步内，算法可以通过自我博弈机制来近似乘法权重更新，其中在每一轮中，大语言模型都在针对上一轮的自身进行微调，通过模型生成的合成数据和偏好模型的注释来进行优化。自我博弈偏好优化（SPPO）为大语言模型提供了一个全新的优化路径，不仅提高了模型的生成质量，更重要的是提高了模型与人类偏好的对齐度。

2024-05-12 21:41:13 647

原创马斯克Neuralink植入物出故障：受试者接线脱落

目标是将柔性线放置在特定神经元附近，以便可以记录电极检测到的信号并将其解码为预期的动作，例如移动计算机屏幕上的光标。根据 Neuralink 的说法，这些修改调整包括使植入物「对神经群体信号更加敏感」，改进将这些信号转化为光标移动的技术等。但Neuralink报告称，植入物柔性线的偏离脱落降低了Arbaugh的BPS值，该值用于测量植入植入物的患者控制计算机光标的速度和准确度。Neuralink 解释称：「Arbaugh 大脑中植入物的柔性线脱落，导致有效电极数量减少，影响了信息传输速率，丢失了部分数据。

2024-05-11 21:02:50 503

原创苹果启动AI云服务器计划，芯片直接用M2 Ultra

苹果 CEO 蒂姆・库克在财报电话会议上表示：「我们相信 AI 的变革性力量和承诺，我们相信我们具有能够在这个新时代中使我们与众不同的优势，包括苹果独特的无缝集成的硬件、软件和服务整合的组合」大约三年前，苹果计划使用自家芯片并在云端处理人工智能任务，但在由 OpenAI 的 ChatGPT 和谷歌的 Gemini 推动下的 AI 热潮的加速之后，该公司拨快了时间表。更复杂的任务，比如生成图像或总结长篇新闻文章，并在电子邮件中创建长篇回复，则可能需要云端处理（苹果的 Siri 语音助手的升级版本也是如此）。

2024-05-11 21:01:17 723

原创 3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了

实验结果表明，使用该研究团队所提出的方法获得的CLLMs非常有效，在生成速度上显示出该方法获得了2.4倍至3.4倍的改进，与其他快速推断技术如Medusa2和Eagle相媲美甚至更好，且在推断时不需要额外的内存成本来容纳辅助模型组件。然而，在实践中，普通的Jacobi解码对LLMs的加速效果仅有微弱的提升，例如，平均加速比只有1.05倍。此外，在目标LLM中，提前正确生成的token（例如图7左侧索引6和7处的「country」和「H」），往往在随后的迭代中被不准确地替换。

2024-05-11 20:59:50 840

原创 14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

这种密集字幕利用语言描述了图像及视觉提示的详细信息（例如，每个圆圈的位置）。2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。然而，对于这些模型的评测多集中于语言上的任务，对于视觉的要求多为简单的物体识别。，包含了重新构想的传统计算机视觉问题，使我们能够更全面评估多模态大模型的视觉感知能力，带你揭开GPT4V、Gemini等大模型的视觉界限秘密。

2024-05-11 20:57:42 789

原创 2万块钱买平板：苹果新一代iPad Pro直接上M4芯片，最强也最贵

新款 iPad Air 分为 11 英寸和 13 英寸两个版本，搭载 M2 芯片，支持 Wi-Fi 6E（可以选择支持 5G 的型号），最大存储空间 1TB，比搭载 M1 芯片的 iPad Air 快 50%，但显示屏仍然是 LED 显示屏。因此，无论是在 Logic Pro 中处理复杂的管弦乐文件，还是在 LumaFusion 中向 4K 视频添加高要求的效果，M4 都能提高整个专业工作流程的性能。的精度、色彩准确度和亮度均匀性，这是一种结合两个 OLED 面板的光线创建的最先进的显示屏。

2024-05-11 20:51:57 415

空空如也

空空如也