计算机科研圈-CSDN博客

原创 OpenAI和Anthropic罕见互评模型：Claude幻觉明显要低

罕见，着实是太罕见。一觉醒来，AI圈的两大顶流——和，竟然破天荒地了。而且是互相短暂地授予对方特殊API权限，相互评估模型的安全性和对齐情况。要知道，在各个AI大模型玩家“厮杀”如此激烈的当下，如此顶流之间的合作方式，还是。然后我们再来看下这两份报告的大致亮点：在（Instruction Hierarchy）方面，Claude 4的表现略优于o3，但明显优于其他模型。在（Jailbreaking）方面，Claude模型的表现不如OpenAI o3和OpenAI o4-mini。在。

2025-08-31 10:15:00 925

原创 Grok代码模型来了：限时免费用，速度超级快

马斯克旗下xAI本周推出全新代码模型GrokCodeFast1，速度较GPT-5快3倍且成本降低6倍。该专为AI编程任务优化的模型支持TypeScript、Python等主流语言，能自动调用开发工具完成代码任务。采用创新架构训练，在SWE-Bench测试中取得70.8%的高分，接近Claude4水平。现已免费开放一周试用，未来将升级支持多模态输入和扩展上下文功能。

2025-08-31 09:15:00 1191

原创 DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜

DeepSeek发布针对国产芯片的FP8量化策略UE8M0FP8，引发业界对大模型量化技术的关注。FP8作为低精度格式可平衡计算效率与模型精度，微软、Meta等巨头也在推进相关研究。与此同时，英伟达宣布更激进的FP4量化方案NVFP4，声称能在预训练阶段保持16位精度。该技术通过微块缩放、高精度编码等创新，在120亿参数模型上验证了可行性，训练速度较FP8提升7倍。这标志着AI训练进入超低精度新阶段，但业界对算力需求与能耗问题的争议仍在持续。两套方案分别体现了国产软硬协同与英伟达技术路线的差异化发展策略。

2025-08-30 14:15:00 971

原创 AI搜索MCP服务来了，Agent直接链接实时信息！刚刚，百度智能云打出了张“王牌”

百度智能云千帆4.0发布"Agent+AI搜索"解决方案，突破实时信息瓶颈。该平台通过开放百度AI搜索MCPServer组件，使Agent能获取实时动态数据并交叉验证结果，同时推出多模态RAG解析企业私域知识。平台集成150+精选模型，提供智能体编排框架和行业专精模型定制工具链，构建从数据治理到运行保障的全套企业级AI基础设施。

2025-08-30 11:45:00 986

原创中科大、智源等发布推理检索框架BGE-Reasoner，打破瓶颈，让RAG学会思考

中国科研团队推出BGE-Reasoner，在推理密集型信息检索领域取得重大突破。该方案由中科大、智源研究院等机构联合研发，通过创新的三阶段框架（查询改写-向量检索-强化排序）和基于大模型的数据合成技术，在权威BRIGHT基准测试中以45.2分刷新纪录，领先第二名3.6分。

2025-08-30 10:45:00 568

原创中科大、智源等发布推理检索框架BGE-Reasoner、打破瓶颈，让RAG学会思考

中国研究团队推出BGE-Reasoner，在推理密集型信息检索领域取得突破。该方案由中科大、智源研究院等机构联合研发，通过三阶段模块化框架（查询改写、向量检索、强化学习重排序）显著提升复杂推理任务中的检索性能。在权威BRIGHT基准测试中以45.2分刷新纪录，领先第二名3.6分。关键技术包括：利用大模型合成高质量训练数据解决数据稀缺问题；将强化学习应用于排序模型训练；提出的BGE-Reasoner-Embed向量模型超越现有最强基线。该成果为提升RAG系统在复杂推理场景的应用提供了新范式，相关资源将开源共享

2025-08-30 09:15:00 976

原创视觉语言模型新突破！ Perception LLM利用280万人工标注数据+6610万合成数据硬刚GPT-4o

摘要：本文提出感知语言模型（PLM），一种完全开源的视觉语言模型（VLM），旨在解决当前研究依赖闭源模型知识蒸馏导致的科学评估困境。通过构建由开源视觉编码器与大语言模型解码器组成的框架，PLM在40项基准测试中达到SOTA性能，且不依赖专有模型蒸馏。

2025-08-29 15:14:59 1053

原创马斯克入局AI编程！xAI新模型限时免费用：256K上下文，主打一个速度快

马斯克旗下xAI推出智能编程模型GrokCodeFast1，主打快速响应和经济实惠，支持256K上下文窗口，在GitHub Copilot等多个平台限时7天免费使用。该模型性能媲美Claude Sonnet4和GPT-5，但价格仅为十分之一，具备多语言支持能力，在SWE-Bench测试中得分70.8%。实测显示其响应速度快、指令遵循优秀，适用于复杂自动化任务，每分钟可处理200万token，性价比显著优于同类产品。

2025-08-29 15:10:18 765

原创谷歌又赢了，nano banana「被迫」改名后，网友搞出7种神仙玩法

只需提供两个动漫角色图像，再加上一张手绘简笔画指定战斗姿势，输入提示词「Have these two characters fight using the pose from Figure 3. Add appropriate visual」，AI 就能将这些元素整合，还能添加丰富的背景和特效。第一步，给一张真实的自动驾驶汽车照片，提示词「turn this into black-and-white manga」，AI 将照片转换为黑白漫画风格，不仅保留了车辆和背景的细节，还添加了动态效果。

2025-08-29 15:02:09 1296

原创元石科技正式发布问小白5，性能直追GPT-5

国产AI大模型问小白5重磅发布，性能直追GPT-5，成为国产AI新标杆。该模型在STEM、前沿知识、代码编程等多项基准测试中表现优异，尤其在指令遵循能力上达到58.1分，展现强大竞争力。作为全能AI助手，问小白5在职场办公、数据分析、角色扮演等场景均能提供专业支持，且更懂中文用户需求。目前已开放体验，用户可通过官网或App使用这一国产AI最新力作。

2025-08-29 15:00:19 1117

原创英伟达Q2营收467亿美元创纪录，股价盘后还跌了5%

英伟达Q2财报显示营收467亿美元（超预期1.3%），调整后每股收益1.05美元。数据中心业务贡献88%营收，Blackwell平台收入环比增17%。尽管业绩亮眼，股价盘后跌超3%，主因市场对AI开支可持续性的担忧。游戏业务同比增长49%，RTX5060成增长最快GPU。公司宣布600亿美元股票回购计划，并持续向全栈AI平台转型。

2025-08-29 14:58:30 651

原创拒稿警告，靠大模型「偷摸水论文」被堵死，ICLR最严新规来了

ICLR2026出台大语言模型使用新规，要求论文作者和审稿人必须披露LLM使用情况并承担全部责任。核心政策包括：1）如实披露LLM在写作、研究等环节的使用；2）禁止"提示词注入"等操纵行为。违规者可能面临直接拒稿等处罚。这延续了NeurIPS、ICML等顶会的监管趋势，旨在防范AI引发的学术不端，维护科研诚信。随着AI工具普及，国际学术界正逐步建立系统的使用规范，促进透明合理的AI辅助研究。

2025-08-28 13:50:31 1319

原创全新多模态数学推理数据集 × 首个综合数学知识体系：We-Math 2.0

本文介绍了We-Math2.0系统，这是一个针对多模态数学推理任务提出的创新解决方案。研究团队构建了包含5个层级、491个知识点、1819个知识原理的完整知识体系，并开发了MathBook-Standard和MathBook-Pro两个数据集，采用"一题多图"和"一图多题"策略进行数据扩展。

2025-08-28 13:47:55 1060

原创全球AI百强榜发布，ChatGPT稳坐第一，DeepSeek第三，前50有22个来自中国

a16z最新发布全球Top100消费级AI应用榜单显示：1）中国厂商表现亮眼，5家中国企业进入网页端前20，DeepSeek全球第三；2）谷歌首次携4款产品强势上榜，Gemini稳居第二；3）ChatGPT仍保持领先但优势缩小，Grok增长迅猛；4）视频类应用中国优势明显，美图系产品占据5席；5）"氛围编程"赛道崛起，Lovable等新秀表现突出.

2025-08-28 13:33:43 1200

原创谷歌nano banana正式上线：单图成本不到3毛钱，比OpenAI便宜95%

谷歌正式发布图像生成模型Gemini-2.5-Flash-Image-Preview，具备SOTA生成/编辑能力、角色一致性和快速响应。该模型支持32k上下文和多轮编辑，可保持人物形象一致性进行换装、场景转换等操作。价格方面每张图约0.28元，低于OpenAI。但暂不支持中文输入生成图像，所有生成图片都带有AI水印。该模型在多个榜单中表现优异，在角色一致性等指标上领先。目前可在Google AI Studio和Gemini API免费试用。

2025-08-27 14:22:24 1637

原创「开发者私下更喜欢用GPT-5写代码」，Claude还坐得稳编程王座吗

一直以来，Anthropic 的 Claude 被认为是处理编程任务的最佳模型，尤其是本月初发布的 Claude Opus 4.1，在真实世界编程、智能体以及推理任务上表现出色。AI 编程进展从未如此迅速。不过，他还是要给 Claude 加一分，它在写作上的「温度感」更强一些，尤其把它当成学习伙伴时。粉丝近 20 万的推特大 V、e/acc 思潮创始人表示，根据他在旧金山听到的一些「小道消息」，现在很多人私下里其实更喜欢用 GPT-5 来写代码，这和流行的「Claude 更擅长编程」的叙事恰恰相反。

2025-08-27 14:21:08 721

原创 FlashAttention-4震撼来袭，原生支持Blackwell GPU

摘要：在HotChips 2025会议上，TogetherAI首席科学家TriDao发布了FlashAttention-4，该版本在Blackwell GPU上比英伟达cuDNN快22%。新版本采用在线softmax算法和软件模拟指数计算两项关键改进，并使用CUTLASS CuTe Python DSL实现。TriDao的优化在特定场景下超越cuBLAS 13.0性能。FlashAttention系列通过IO优化显著提升注意力机制效率，此次更新专门适配Blackwell架构。目前GitHub星标已超1.91

2025-08-27 14:20:18 1187

原创英伟达再出手，新型混合架构模型问世，两大创新实现53.6倍吞吐提速

英伟达推出新型高效语言模型Jet-Nemotron，通过两项核心技术突破实现性能飞跃：1）PostNAS后训练架构搜索方法，可在预训练模型上灵活优化注意力模块配置；2）创新的JetBlock线性注意力模块，显著提升计算效率。实验显示，2B参数规模的Jet-Nemotron在MMLU-Pro基准上超越Qwen3等主流模型，同时生成吞吐量提升高达47倍，在H100GPU上实现21-53.6倍加速。该研究突破了传统Transformer架构的效率瓶颈，为轻量化大模型发展提供了新范式。

2025-08-27 14:18:04 692

原创一天之内，Meta痛失两员大将，小扎钞能力失效了吗

Meta近期面临AI人才流失困境，多位资深研究员相继离职。强化学习专家Rishabh Agarwal和PyTorch构建者Bert Maher相继宣布离开Meta，前者未透露去向，后者加入Anthropic。内部管理问题被指是主因，包括薪资差距悬殊、资源分配不均、末位淘汰制导致的内部竞争等问题。前员工揭露Meta存在"效率低下、内斗严重"等问题，与Anthropic80%的保留率形成鲜明对比。多位顶级AI人才拒绝Meta邀请，更看重价值观匹配而非高薪。分析认为，Meta面临比薪酬更深层的

2025-08-27 14:15:19 574

原创谷歌神秘模型Nano-Banana，实测：强到离谱，但有3大硬伤

神秘AI模型Nano-Banana引发热议，疑似谷歌研发但未获官方认证。该模型在图像生成和编辑上表现优异，能精准理解复杂提示词，实现多图元素融合，在商业场景中应用潜力大。不过存在生成细节瑕疵、体验不稳定等问题，且已出现多个假冒网站。实测显示其生成质量优于ChatGPT，尤其在人物细节和场景理解上更自然。网友还开发了与Veo3结合的创意玩法，如制作手办视频。目前该模型仅能通过LMArena平台随机体验，谷歌尚未正式发布。

2025-08-27 14:10:09 1960

原创 DeepSeek V3.1惊现神秘「极」字Bug，模型故障了吗

还不只是「极」，也有用户发现 DeepSeek-V3.1 还存在多语言混用的问题，u/Kitano_o 分享说：「我使用 3.1 从中文翻译成俄语时，遇到一些奇怪的行为。比如知乎用户「去码头整点薯条」分享说 R1 也存在类似的问题，他还简单猜想了原因：「使用 R1 0528 的时候就遇到了很多次，我观察到的现象更离谱，会在代码里面插入 “极客园”，而且遇到不止一次，怀疑是不是学习的时候吃进去了什么电子水印吃坏肚子了。他说：「我已经对所有流行的编码模型都做过同样的评估，这是我第一次遇到这种问题。

2025-08-27 14:08:12 1274

原创全球开源大模型，前十五名全是中国的

现在说起开源的大模型，大多数人的第一反应早已不是 Llama，而是 Qwen 和 DeepSeek。有人认为，正是 DeepSeek 等开源大模型能够与闭源顶尖模型分庭抗礼，才让众多应用端公司得以转变工作重点，把精力放在模型调优和应用优化的工作上来，进而加速了 AI 技术的落地。此前还有机构 Interconnects（深度聚焦前沿 AI 研究的高质量内容平台）汇总了国内顶尖的 19 家开源模型实验室，包括 DeepSeek 这样的顶级机构，以及一些通过技术报告和小众模型崭露头角的新兴学术实验室。

2025-08-26 11:00:22 1246

原创 Karpathy氛围编程最新指南！三层AI编程结构：顺境Cursor，逆境Claude，绝境GPT-5 Pro

Karpathy发布最新VibeCoding指南，提出AI编程三层结构：1）Cursor负责基础补全与修改（占75%工作量）；2）Claude/Codex用于较大功能块实现，特别适合陌生领域；3）GPT-5Pro解决最复杂问题，如深度调试和文献研究。他指出当前AI工具存在代码臃肿、风格不佳等问题，需要人工优化。

2025-08-26 10:57:26 776

原创马斯克将OpenAI和苹果告上法庭：指控ChatGPT垄断iPhone，自家Grok被打压

马斯克旗下xAI起诉OpenAI和苹果涉嫌垄断，指控它们通过ChatGPT内置iPhone及操纵AppStore排名打压竞争对手。

2025-08-26 10:53:43 439

原创科学界论文高引第一人易主！AI站上历史巅峰

魔镜魔镜，谁是有史以来被引用次数最多的科学家？。如你所见，之所以提出这个问题，其实是因为相关消息正在引起热议ing。并且这一次，Bengio的“最高引”头衔不仅限于计算机领域，而是“称霸”所有学科，属于。在这之前，早在2018年，Bengio就是世界计算机研究者中单日引用次数最高的人（同一年获图灵奖），2022年还一举成为世界上被引用次数最多的计算机科学家。

2025-08-25 16:12:07 1470

原创首个接入GPT-5的视频Agent！一句话生成商业级广告大片，分镜配音字幕等全包了

AI视频生成进入Agent时代！VideoOcean作为全球首个接入GPT-5的视频创作平台，只需一句提示词就能自动生成完整视频，涵盖分镜、画面、配音、字幕等全流程。它能快速响应热点、制作商业广告，甚至从0到1构建专业影视内容，将原本数周的创作时间缩短至数分钟。

2025-08-25 16:10:53 1928

原创马斯克成立新公司「巨硬」：用AI把微软产品重做一遍

马斯克成立AI公司巨硬对标微软，双方商战升级。新公司将用AI模拟替代微软核心业务，如Office等软件产品，由xAI提供技术支持。这延续了马斯克与微软创始人盖茨的长期矛盾，包括特斯拉做空事件及AI领域竞争。

2025-08-25 16:09:36 1481

原创开源且能能推理能训练，三个月零基础手搓一块TPU，

谷歌TPU作为AI专用芯片的典型代表，通过脉动阵列等创新设计显著提升了机器学习效率。近日，加拿大西安大略大学的工程师团队开发出开源项目TinyTPU，成功复刻了TPU的核心功能。该项目采用模块化设计，包含脉动阵列、统一缓冲区和向量处理单元等组件，支持从推理到训练的全流程。团队通过手工计算神经网络运算，实现了包括矩阵乘法、反向传播等关键算法，并创新性地采用双缓冲机制提升性能。这个由非专业学生完成的项目，不仅验证了TPU设计理念，也为AI芯片研究提供了有价值的开源参考。

2025-08-25 14:04:04 668

原创 AI智能体加持，爆款视频产出速度提升了10倍，全民导演时代已来

VideoOcean引领AI视频创作革命：通过GPT-5驱动的智能Agent系统，用户只需输入一句话指令即可自动生成完整视频（包括分镜、配音、字幕等），将传统数周的拍摄周期缩短至几分钟。该平台已吸引全球14国115位创作者参与测试，其核心创新在于将AI从单一功能工具升级为全流程创作引擎，支持商业广告、纪录片等多种内容生产。

2025-08-25 11:57:13 1512

原创厉害了，智谱造了全球首个手机通用Agent！人人免费，APP甚至直接操控云电脑

智谱发布全球首个手机通用Agent——AutoGLM，实现云端智能操作。该工具可在不占用本地资源的情况下，通过云端手机/电脑执行跨APP任务，如点外卖、比价购物、生成报告等。支持安卓/iOS设备，具备生活助手和办公助手两大功能模块，能够自主完成复杂任务。其核心创新在于云端执行设计，解决了传统Agent占用本地资源的问题。同时开放的API接口允许开发者将其集成到各种智能设备中。作为智谱AGI路线图的关键一步，AutoGLM不仅验证了技术可行性，更为用户提供了真正实用的智能助手体验，标志着人机交互方式的新变革。

2025-08-24 15:15:00 997

空空如也

空空如也