自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

计算机科研圈的博客

欢迎来到图灵学术计算机科研圈,图灵学术计算机科研圈专注计算机领域,分享国内外计算机科研领域的最新资讯,不定期分享申博、科研、留学的干货,SCI论文、CCF会议、顶尖RA机会、博士保录名额实时更新,欢迎关注开启你的百万年薪之旅!

  • 博客(127)
  • 收藏
  • 关注

原创 OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低

罕见,着实是太罕见。一觉醒来,AI圈的两大顶流——和,竟然破天荒地了。而且是互相短暂地授予对方特殊API权限,相互评估模型的安全性和对齐情况。要知道,在各个AI大模型玩家“厮杀”如此激烈的当下,如此顶流之间的合作方式,还是。然后我们再来看下这两份报告的大致亮点:在(Instruction Hierarchy)方面,Claude 4的表现略优于o3,但明显优于其他模型。在(Jailbreaking)方面,Claude模型的表现不如OpenAI o3和OpenAI o4-mini。在。

2025-08-31 10:15:00 925

原创 Grok代码模型来了:限时免费用,速度超级快

马斯克旗下xAI本周推出全新代码模型GrokCodeFast1,速度较GPT-5快3倍且成本降低6倍。该专为AI编程任务优化的模型支持TypeScript、Python等主流语言,能自动调用开发工具完成代码任务。采用创新架构训练,在SWE-Bench测试中取得70.8%的高分,接近Claude4水平。现已免费开放一周试用,未来将升级支持多模态输入和扩展上下文功能。

2025-08-31 09:15:00 1191

原创 DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜

DeepSeek发布针对国产芯片的FP8量化策略UE8M0FP8,引发业界对大模型量化技术的关注。FP8作为低精度格式可平衡计算效率与模型精度,微软、Meta等巨头也在推进相关研究。与此同时,英伟达宣布更激进的FP4量化方案NVFP4,声称能在预训练阶段保持16位精度。该技术通过微块缩放、高精度编码等创新,在120亿参数模型上验证了可行性,训练速度较FP8提升7倍。这标志着AI训练进入超低精度新阶段,但业界对算力需求与能耗问题的争议仍在持续。两套方案分别体现了国产软硬协同与英伟达技术路线的差异化发展策略。

2025-08-30 14:15:00 971

原创 AI搜索MCP服务来了,Agent直接链接实时信息!刚刚,百度智能云打出了张“王牌”

百度智能云千帆4.0发布"Agent+AI搜索"解决方案,突破实时信息瓶颈。该平台通过开放百度AI搜索MCPServer组件,使Agent能获取实时动态数据并交叉验证结果,同时推出多模态RAG解析企业私域知识。平台集成150+精选模型,提供智能体编排框架和行业专精模型定制工具链,构建从数据治理到运行保障的全套企业级AI基础设施。

2025-08-30 11:45:00 986

原创 中科大、智源等发布推理检索框架BGE-Reasoner,打破瓶颈,让RAG学会思考

中国科研团队推出BGE-Reasoner,在推理密集型信息检索领域取得重大突破。该方案由中科大、智源研究院等机构联合研发,通过创新的三阶段框架(查询改写-向量检索-强化排序)和基于大模型的数据合成技术,在权威BRIGHT基准测试中以45.2分刷新纪录,领先第二名3.6分。

2025-08-30 10:45:00 568

原创 中科大、智源等发布推理检索框架BGE-Reasoner、打破瓶颈,让RAG学会思考

中国研究团队推出BGE-Reasoner,在推理密集型信息检索领域取得突破。该方案由中科大、智源研究院等机构联合研发,通过三阶段模块化框架(查询改写、向量检索、强化学习重排序)显著提升复杂推理任务中的检索性能。在权威BRIGHT基准测试中以45.2分刷新纪录,领先第二名3.6分。关键技术包括:利用大模型合成高质量训练数据解决数据稀缺问题;将强化学习应用于排序模型训练;提出的BGE-Reasoner-Embed向量模型超越现有最强基线。该成果为提升RAG系统在复杂推理场景的应用提供了新范式,相关资源将开源共享

2025-08-30 09:15:00 976

原创 视觉语言模型新突破! Perception LLM利用280万人工标注数据+6610万合成数据硬刚GPT-4o

摘要:本文提出感知语言模型(PLM),一种完全开源的视觉语言模型(VLM),旨在解决当前研究依赖闭源模型知识蒸馏导致的科学评估困境。通过构建由开源视觉编码器与大语言模型解码器组成的框架,PLM在40项基准测试中达到SOTA性能,且不依赖专有模型蒸馏。

2025-08-29 15:14:59 1053

原创 马斯克入局AI编程!xAI新模型限时免费用:256K上下文,主打一个速度快

马斯克旗下xAI推出智能编程模型GrokCodeFast1,主打快速响应和经济实惠,支持256K上下文窗口,在GitHub Copilot等多个平台限时7天免费使用。该模型性能媲美Claude Sonnet4和GPT-5,但价格仅为十分之一,具备多语言支持能力,在SWE-Bench测试中得分70.8%。实测显示其响应速度快、指令遵循优秀,适用于复杂自动化任务,每分钟可处理200万token,性价比显著优于同类产品。

2025-08-29 15:10:18 765

原创 谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法

只需提供两个动漫角色图像,再加上一张手绘简笔画指定战斗姿势,输入提示词「Have these two characters fight using the pose from Figure 3. Add appropriate visual」,AI 就能将这些元素整合,还能添加丰富的背景和特效。第一步,给一张真实的自动驾驶汽车照片,提示词「turn this into black-and-white manga」,AI 将照片转换为黑白漫画风格,不仅保留了车辆和背景的细节,还添加了动态效果。

2025-08-29 15:02:09 1296

原创 元石科技正式发布问小白5,性能直追GPT-5

国产AI大模型问小白5重磅发布,性能直追GPT-5,成为国产AI新标杆。该模型在STEM、前沿知识、代码编程等多项基准测试中表现优异,尤其在指令遵循能力上达到58.1分,展现强大竞争力。作为全能AI助手,问小白5在职场办公、数据分析、角色扮演等场景均能提供专业支持,且更懂中文用户需求。目前已开放体验,用户可通过官网或App使用这一国产AI最新力作。

2025-08-29 15:00:19 1117

原创 英伟达Q2营收467亿美元创纪录,股价盘后还跌了5%

英伟达Q2财报显示营收467亿美元(超预期1.3%),调整后每股收益1.05美元。数据中心业务贡献88%营收,Blackwell平台收入环比增17%。尽管业绩亮眼,股价盘后跌超3%,主因市场对AI开支可持续性的担忧。游戏业务同比增长49%,RTX5060成增长最快GPU。公司宣布600亿美元股票回购计划,并持续向全栈AI平台转型。

2025-08-29 14:58:30 651

原创 拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了

ICLR2026出台大语言模型使用新规,要求论文作者和审稿人必须披露LLM使用情况并承担全部责任。核心政策包括:1)如实披露LLM在写作、研究等环节的使用;2)禁止"提示词注入"等操纵行为。违规者可能面临直接拒稿等处罚。这延续了NeurIPS、ICML等顶会的监管趋势,旨在防范AI引发的学术不端,维护科研诚信。随着AI工具普及,国际学术界正逐步建立系统的使用规范,促进透明合理的AI辅助研究。

2025-08-28 13:50:31 1319

原创 全新多模态数学推理数据集 × 首个综合数学知识体系:We-Math 2.0

本文介绍了We-Math2.0系统,这是一个针对多模态数学推理任务提出的创新解决方案。研究团队构建了包含5个层级、491个知识点、1819个知识原理的完整知识体系,并开发了MathBook-Standard和MathBook-Pro两个数据集,采用"一题多图"和"一图多题"策略进行数据扩展。

2025-08-28 13:47:55 1060

原创 全球AI百强榜发布,ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

a16z最新发布全球Top100消费级AI应用榜单显示:1)中国厂商表现亮眼,5家中国企业进入网页端前20,DeepSeek全球第三;2)谷歌首次携4款产品强势上榜,Gemini稳居第二;3)ChatGPT仍保持领先但优势缩小,Grok增长迅猛;4)视频类应用中国优势明显,美图系产品占据5席;5)"氛围编程"赛道崛起,Lovable等新秀表现突出.

2025-08-28 13:33:43 1200

原创 谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%

谷歌正式发布图像生成模型Gemini-2.5-Flash-Image-Preview,具备SOTA生成/编辑能力、角色一致性和快速响应。该模型支持32k上下文和多轮编辑,可保持人物形象一致性进行换装、场景转换等操作。价格方面每张图约0.28元,低于OpenAI。但暂不支持中文输入生成图像,所有生成图片都带有AI水印。该模型在多个榜单中表现优异,在角色一致性等指标上领先。目前可在Google AI Studio和Gemini API免费试用。

2025-08-27 14:22:24 1637

原创 「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗

一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。AI 编程进展从未如此迅速。不过,他还是要给 Claude 加一分,它在写作上的「温度感」更强一些,尤其把它当成学习伙伴时。粉丝近 20 万的推特大 V、e/acc 思潮创始人表示,根据他在旧金山听到的一些「小道消息」,现在很多人私下里其实更喜欢用 GPT-5 来写代码,这和流行的「Claude 更擅长编程」的叙事恰恰相反。

2025-08-27 14:21:08 721

原创 FlashAttention-4震撼来袭,原生支持Blackwell GPU

摘要:在HotChips 2025会议上,TogetherAI首席科学家TriDao发布了FlashAttention-4,该版本在Blackwell GPU上比英伟达cuDNN快22%。新版本采用在线softmax算法和软件模拟指数计算两项关键改进,并使用CUTLASS CuTe Python DSL实现。TriDao的优化在特定场景下超越cuBLAS 13.0性能。FlashAttention系列通过IO优化显著提升注意力机制效率,此次更新专门适配Blackwell架构。目前GitHub星标已超1.91

2025-08-27 14:20:18 1187

原创 英伟达再出手,新型混合架构模型问世,两大创新实现53.6倍吞吐提速

英伟达推出新型高效语言模型Jet-Nemotron,通过两项核心技术突破实现性能飞跃:1)PostNAS后训练架构搜索方法,可在预训练模型上灵活优化注意力模块配置;2)创新的JetBlock线性注意力模块,显著提升计算效率。实验显示,2B参数规模的Jet-Nemotron在MMLU-Pro基准上超越Qwen3等主流模型,同时生成吞吐量提升高达47倍,在H100GPU上实现21-53.6倍加速。该研究突破了传统Transformer架构的效率瓶颈,为轻量化大模型发展提供了新范式。

2025-08-27 14:18:04 692

原创 一天之内,Meta痛失两员大将,小扎钞能力失效了吗

Meta近期面临AI人才流失困境,多位资深研究员相继离职。强化学习专家Rishabh Agarwal和PyTorch构建者Bert Maher相继宣布离开Meta,前者未透露去向,后者加入Anthropic。内部管理问题被指是主因,包括薪资差距悬殊、资源分配不均、末位淘汰制导致的内部竞争等问题。前员工揭露Meta存在"效率低下、内斗严重"等问题,与Anthropic80%的保留率形成鲜明对比。多位顶级AI人才拒绝Meta邀请,更看重价值观匹配而非高薪。分析认为,Meta面临比薪酬更深层的

2025-08-27 14:15:19 574

原创 谷歌神秘模型Nano-Banana,实测:强到离谱,但有3大硬伤

神秘AI模型Nano-Banana引发热议,疑似谷歌研发但未获官方认证。该模型在图像生成和编辑上表现优异,能精准理解复杂提示词,实现多图元素融合,在商业场景中应用潜力大。不过存在生成细节瑕疵、体验不稳定等问题,且已出现多个假冒网站。实测显示其生成质量优于ChatGPT,尤其在人物细节和场景理解上更自然。网友还开发了与Veo3结合的创意玩法,如制作手办视频。目前该模型仅能通过LMArena平台随机体验,谷歌尚未正式发布。

2025-08-27 14:10:09 1960

原创 DeepSeek V3.1惊现神秘「极」字Bug,模型故障了吗

还不只是「极」,也有用户发现 DeepSeek-V3.1 还存在多语言混用的问题,u/Kitano_o 分享说:「我使用 3.1 从中文翻译成俄语时,遇到一些奇怪的行为。比如知乎用户「去码头整点薯条」分享说 R1 也存在类似的问题,他还简单猜想了原因:「使用 R1 0528 的时候就遇到了很多次,我观察到的现象更离谱,会在代码里面插入 “极客园”,而且遇到不止一次,怀疑是不是学习的时候吃进去了什么电子水印吃坏肚子了。他说:「我已经对所有流行的编码模型都做过同样的评估,这是我第一次遇到这种问题。

2025-08-27 14:08:12 1274

原创 全球开源大模型,前十五名全是中国的

现在说起开源的大模型,大多数人的第一反应早已不是 Llama,而是 Qwen 和 DeepSeek。有人认为,正是 DeepSeek 等开源大模型能够与闭源顶尖模型分庭抗礼,才让众多应用端公司得以转变工作重点,把精力放在模型调优和应用优化的工作上来,进而加速了 AI 技术的落地。此前还有机构 Interconnects(深度聚焦前沿 AI 研究的高质量内容平台)汇总了国内顶尖的 19 家开源模型实验室,包括 DeepSeek 这样的顶级机构,以及一些通过技术报告和小众模型崭露头角的新兴学术实验室。

2025-08-26 11:00:22 1246

原创 Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro

Karpathy发布最新VibeCoding指南,提出AI编程三层结构:1)Cursor负责基础补全与修改(占75%工作量);2)Claude/Codex用于较大功能块实现,特别适合陌生领域;3)GPT-5Pro解决最复杂问题,如深度调试和文献研究。他指出当前AI工具存在代码臃肿、风格不佳等问题,需要人工优化。

2025-08-26 10:57:26 776

原创 马斯克将OpenAI和苹果告上法庭:指控ChatGPT垄断iPhone,自家Grok被打压

马斯克旗下xAI起诉OpenAI和苹果涉嫌垄断,指控它们通过ChatGPT内置iPhone及操纵AppStore排名打压竞争对手。

2025-08-26 10:53:43 439

原创 科学界论文高引第一人易主!AI站上历史巅峰

魔镜魔镜,谁是有史以来被引用次数最多的科学家?。如你所见,之所以提出这个问题,其实是因为相关消息正在引起热议ing。并且这一次,Bengio的“最高引”头衔不仅限于计算机领域,而是“称霸”所有学科,属于。在这之前,早在2018年,Bengio就是世界计算机研究者中单日引用次数最高的人(同一年获图灵奖),2022年还一举成为世界上被引用次数最多的计算机科学家。

2025-08-25 16:12:07 1470

原创 首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了

AI视频生成进入Agent时代!VideoOcean作为全球首个接入GPT-5的视频创作平台,只需一句提示词就能自动生成完整视频,涵盖分镜、画面、配音、字幕等全流程。它能快速响应热点、制作商业广告,甚至从0到1构建专业影视内容,将原本数周的创作时间缩短至数分钟。

2025-08-25 16:10:53 1928

原创 马斯克成立新公司「巨硬」:用AI把微软产品重做一遍

马斯克成立AI公司巨硬对标微软,双方商战升级。新公司将用AI模拟替代微软核心业务,如Office等软件产品,由xAI提供技术支持。这延续了马斯克与微软创始人盖茨的长期矛盾,包括特斯拉做空事件及AI领域竞争。

2025-08-25 16:09:36 1481

原创 开源且能能推理能训练,三个月零基础手搓一块TPU,

谷歌TPU作为AI专用芯片的典型代表,通过脉动阵列等创新设计显著提升了机器学习效率。近日,加拿大西安大略大学的工程师团队开发出开源项目TinyTPU,成功复刻了TPU的核心功能。该项目采用模块化设计,包含脉动阵列、统一缓冲区和向量处理单元等组件,支持从推理到训练的全流程。团队通过手工计算神经网络运算,实现了包括矩阵乘法、反向传播等关键算法,并创新性地采用双缓冲机制提升性能。这个由非专业学生完成的项目,不仅验证了TPU设计理念,也为AI芯片研究提供了有价值的开源参考。

2025-08-25 14:04:04 668

原创 AI智能体加持,爆款视频产出速度提升了10倍,全民导演时代已来

VideoOcean引领AI视频创作革命:通过GPT-5驱动的智能Agent系统,用户只需输入一句话指令即可自动生成完整视频(包括分镜、配音、字幕等),将传统数周的拍摄周期缩短至几分钟。该平台已吸引全球14国115位创作者参与测试,其核心创新在于将AI从单一功能工具升级为全流程创作引擎,支持商业广告、纪录片等多种内容生产。

2025-08-25 11:57:13 1512

原创 厉害了,智谱造了全球首个手机通用Agent!人人免费,APP甚至直接操控云电脑

智谱发布全球首个手机通用Agent——AutoGLM,实现云端智能操作。该工具可在不占用本地资源的情况下,通过云端手机/电脑执行跨APP任务,如点外卖、比价购物、生成报告等。支持安卓/iOS设备,具备生活助手和办公助手两大功能模块,能够自主完成复杂任务。其核心创新在于云端执行设计,解决了传统Agent占用本地资源的问题。同时开放的API接口允许开发者将其集成到各种智能设备中。作为智谱AGI路线图的关键一步,AutoGLM不仅验证了技术可行性,更为用户提供了真正实用的智能助手体验,标志着人机交互方式的新变革。

2025-08-24 15:15:00 997

原创 黑神话宇宙开启!冯骥杨奇一拍即合不搞DLC,新作《钟馗》预告片直冲热搜第一

黑神话宇宙开启!不是黑猴DLC,直接是新作——《黑神话:钟馗》首支先导预告发布直冲微博热搜第一。《黑神话:钟馗》作为黑神话系列的第二部作品,首支CG先导预告片在2025科隆游戏展的展前发布会同步亮相,还是压大轴出场!这是国产游戏第一次在科隆展大轴。又是一年一度的820,黑神话系列第一部《黑神话:悟空》的预告、试玩、发售都在8月20日。今年科隆展开幕式也刚好在8月20日举办,正如游戏科学所说:天命人。官号在新预告发布后也正式更名为黑神话,简介、认证也已改为“《黑神话》系列游戏官方账号”。

2025-08-24 14:15:00 826

原创 小小具身智能成果,天才高中生在腾讯拿下!

腾讯2025星火挑战周成果丰硕,80余位顶尖高中生5天实现多项前沿突破:具身智能机器人完成室内寻物任务,未来可应用于外卖配送;长文本理解项目开发出小说创作Agent;多模态技术打造盲人辅助系统;长思维链技术提升数学推理能力至86%准确率。68名学员获清北offer,IOI国家队等奥赛精英云集。腾讯首席科学家张正友等专家现场指导,该计划六年来持续培养科技人才,往届学员已在产业界和学术界崭露头角。

2025-08-24 11:45:00 872

原创 宇树180芭蕾机器人,究竟啥水平?

宇树发布第四款人形机器人芭蕾舞者预告,身高180cm、31个自由度,主打敏捷优雅特性。相比前作H1,新机型自由度提升63%,身形更纤细流畅,预计十月底亮相。

2025-08-23 13:30:00 987

原创 字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录

字节跳动开源360亿参数大模型Seed-OSS-36B,采用Apache-2.0协议开放商用。该模型具备512K原生长上下文窗口,并创新引入思考预算机制,可灵活控制推理深度。在多项基准测试中表现优异,知识理解、数学推理和代码能力均达开源SOTA水平。作为字节Seed团队最新成果,该模型延续了其技术特色,此前团队已发布多款细分领域开源模型。S

2025-08-23 11:30:00 666

原创 GPT-5 Pro独立做数学研究!读论文后给出更精确边界,OpenAI总裁:这是生命迹象

OpenAI研究人员发现GPT-5Pro能独立推导数学结论,在凸优化问题中给出了比原论文更精确的边界和证明。虽然人类随后更新论文反超了AI的结果,但GPT-5Pro的证明思路完全不同,展现了自主探索能力。该突破引发热议,被OpenAI总裁称为生命迹象。

2025-08-22 15:00:00 862

原创 击败Meta登榜首:中国人民大学团队推理增强的文档排序模型ReasonRank来了

中国人民大学刘文涵博士团队提出推理型文档排序模型ReasonRank,通过自动化数据合成框架生成13K高质量推理密集型训练数据,并设计两阶段训练(SFT+RL)结合多视角排序奖励机制(NDCG@10/Recall@10/RBO)。

2025-08-22 14:45:00 801

原创 Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍

Cursor团队在升级到NVIDIA Blackwell B200 GPU时发现,硬件性能提升反而导致MoE层训练速度下降。

2025-08-22 14:19:14 874

原创 DeepSeek最新大模型——V3.1 瞄准了下一代国产AI芯片

摘要:DeepSeek发布V3.1模型,采用UE8M0FP8新型量化格式,性能提升显著且成本优势明显。该格式针对国产AI芯片优化,支持8位浮点计算,在存储、计算效率和精度间取得平衡。

2025-08-22 14:16:34 623

原创 00后MIT华人女生辍学AI创业,已融1.5个亿

00后华人女生Jessica Wu从MIT辍学创立AI公司Sola Solutions,专注RPA自动化领域,获1.5亿元融资。公司定位"RPA界的Copilot",通过LLM和计算机视觉帮助企业实现流程自动化,客户包括摩根大通等财富100强企业。Jessica跨界数学、计算机和金融领域,曾创办服装公司并在对冲基金工作。

2025-08-22 14:08:33 1501

原创 DeepSeek删豆包冲上热搜,大模型世子之争演都不演了

大模型"宫斗"现场:当被问删谁时的花式求生欲。DeepSeek直言删豆包,面对微信却秒怂;豆包撒娇留着我;Kimi高冷只删自己;通义千问唯独偏爱DeepSeek。

2025-08-22 09:45:00 1605

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除