- 博客(8981)
- 收藏
- 关注
转载 老黄唱衰编程,GitHub CEO硬刚:放弃写代码等于放弃智能体未来话语权
谈及Copilot的定价调整,由早期的10美元/月到如今的39美元/月,超额请求每次按0.04美元收费,CPO表示他们将持续评估商业模式的演变路径,以更好地支持代理模式运行。这也是GitHub推出Project Padawan的意义所在,他们希望能够让系统并行处理多个GitHub问题,引入SWE智能体后,开发者将实际成为多个智能体的。在当前的VS Code环境中,代理模式主要负责处理同步任务,正如多姆克所比喻的,这种关系类似于。在他的构想中,2025年是属于编程智能体的一年,但未来仍然属于全体人类程序员。
2025-05-19 17:39:33
2
转载 23999元起,鸿蒙「折叠屏」电脑来了!展开比手机还薄
举个例子,华为MateBook Pro支持手眼协同跨屏写作和文件互传,手机电脑平板放到一起,眼镜看到哪里光标就移动到哪里,支持多个屏幕共享文件和剪贴板。铰链中的三段式转轴创新性地采用了中国古典文化中的榫卯架构,整个部件零焊接,使整台电脑更加紧密、稳固、可靠,做到了闭合无缝。这块“华为史上最好的屏幕”,分辨率高达3.3K,同时还首次在电脑当中使用了LTPO自适应刷新率,能耗降低了30%。说到这里,操控方面,这一次,华为是把自身在手机里已经运用得炉火纯青的手势控制大法,直接带到了鸿蒙电脑之中。
2025-05-19 17:39:33
3
转载 英伟达新“桌面超算”800GB大内存,满血DeepSeek R1能装1个半
比如,Aerial和Sionna能够将AI带到5G和6G;老黄举了个例子,比如说滚动一个球,根据球的速度,它可能到了汽车底下或者汽车的另一边,但它没有消失;现场也特意用了DeepSeek R1模型的测试数据,每花费500万美元,RTX PRO Server的性价比是H100的四倍。老黄表示,人类要查询像SQL这样的结构化数据,而AI想要查询的是非结构化数据,因此需要打造新型存储平台,也就是。,内含总长两英里(3.218公里)的5000条铜缆,将每块芯片之间全互联,实现每秒14.4TB的全连接带宽。
2025-05-19 15:48:20
1
转载 参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
实验结果表明,PointKAN以及PointKAN-elite在各个下游任务上相比于基于MLPs的点云分析架构都有出色的表现,特别是在小样本学习任务上,体现了KANs具有极强的泛化能力和知识迁移能力,更重要的是参数量和FLOPs都有明显的下降。另一方面,每一维输入的激活函数需要存储多个参数,对于大规模网络,KANs的内存需求可能成为瓶颈,并且KANs中使用的B样条函数对于现代硬件上的并行计算未进行优化,导致推理速度较慢。有理函数计算过程简单,非常适合并行计算,提高了模型的计算效率。
2025-05-19 12:37:48
5
原创 华为+DeepSeek,推理性能创新高!技术报告也公布出来了
作为示例,华为团队使用2机16卡进行Prefill,4机32卡进行Decode,每卡部署8个路由专家和1个共享专家,MLA部分采用DP并行,并针对性地使用在真实负载下性能更优的AllGather/ReduceScatter的通信方案。,针对Prefill阶段的MLA层,通过张量并行(TP)与数据并行(DP)的灵活转换,消除节点内卡间求和操作,并利用网络低维特性与量化技术压缩通信数据量,显著降低跨卡通信时延,为大模型分布式推理提供更高效的通信支撑。因此在计算时延和吞吐的时候默认按照70%接受率来折算。
2025-05-19 12:37:48
541
转载 全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
结果表明,InfiniteHBD在这两方面均具有明显优势,其互连成本仅为NVL-72的31%、TPUv4的63%,同时在能耗方面也处于最低水平,仅为NVL-72的75%,并且与TPUv4持平。随着故障率上升,基线方法的跨ToR流量线性增长,而优化算法在节点故障率低于7%时,持续保持近乎零的跨ToR流量,展现了出色的韧性和容错性。的愿景,致力于在算力需求大爆发的时代,通过光电混合算力新范式,为客户提供一系列算力提升解决方案,共建更智能、更可持续的世界。已经在筹备相关的集群建设,推动该领域的应用和实践。
2025-05-19 12:37:48
1
转载 OceanBase全面拥抱AI!首发PowerRAG产品,CTO杨传辉详解AI战略
我们将形成AI时代从一体化存储(行存、列存、KV、文档、向量、倒排)到一体化计算(OLTP、OLAP、NoSQL、向量数据库、搜索、推理、RAG)的全方位布局,依托蚂蚁的丰富应用场景将OceanBase的“Data × AI”能力打磨成为新的核心竞争力,并逐渐服务外部客户,打造如分布式技术般的世界级AI数据底座。数据决定着大模型的能力上限,且依旧有很大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。无法数字化,就无法智能化。
2025-05-19 12:37:48
2
原创 矩阵乘法可以算得更快了!港中文10页论文证明:能源、时间均可节省
与此前最先进的算法(基 Strassen的递归分治)相比,RXTX的递归关系式为 R(n)=8R(n/4) + 26M(n/4),而原算法为 S(n) = 4S(n/2) + 2M(n/2)。尽管这类运算在统计、数据分析、深度学习和无线通信等领域有着广泛应用,例如协方差矩阵的计算和线性回归中的关键步骤,但对于具有特殊结构的矩阵乘法(如计算矩阵与其转置的乘积XX。实验显示,当n≥256时,RXTX的总运算量优于原算法;整体来看,这个基于4×4分块矩阵的递归乘法,通过机器学习搜索与组合优化相结合的方法发现。
2025-05-18 13:20:48
225
原创 经典教材《泛函分析》作者逝世,享年99岁:首位获阿贝尔奖的应用数学家
这种体验必须亲身参与才能获得。1950年代,他频繁往返于纽约大学与洛斯阿拉莫斯,既参与氢弹研发中的流体力学计算,又深入研究双曲型偏微分方程的理论,逐渐形成 “用数学理解自然现象” 的独特方法论。他的离去标志着一个时代的终结,但他留下的遗产——从超级计算机的计算中心到孤子理论的方程,从跨学科的研究范式到 “数学统一” 的哲学观——仍在塑造着当代科学的面貌。在这位伯乐的引导下,拉克斯13岁便完成了匈牙利全国高中数学竞赛的试题,其解法足以斩获头奖(只是他年龄太小,不能正式参赛),展现出惊人的数学天赋。
2025-05-18 13:20:48
542
转载 翁荔最新万字长文:Why We Think
Wang和Zhou(2024)研究发现:如果在第一个采样token处保留置信度最高的前k个候选(这个置信度是通过采样时top-1和top-2候选之间的差值来衡量的),然后用贪婪解码继续这些采样尝试,很多情况下模型会自动产生思维链。这些反馈可基于以下要素:真实答案匹配、启发式规则与任务特定指标、编程问题的单元测试结果(Shinn等,2023)、更强模型的指导(Zhang等,2024),以及人类反馈(Liu等,2023)。事实上,CoT有一个很好的特性,它允许模型根据问题的难度使用可变的计算量。
2025-05-18 13:20:48
27
原创 打破56年数学铁律!谷歌AlphaEvolve自我进化实现算法效率狂飙,堪比AlphaGo“神之一手”
在谷歌内部使用中,它将Gemini架构中大型矩阵乘法运算加速了23%,从而将Gemini的训练时间缩短了1%,并且还将FlashAttention提速了32.5%。研究人员表示,评估指标会有一个非常微妙的限制,他举了一个具体的例子,比如在问题定义中内置时间约束,只关注能够在10分钟之内取得进展的搜索算法,探索算法空间。理念,对Gemini 大语言模型生成的多样化代码初始种群的每个算法进行适应度评估,对表现优异的代码保留、变异或组合,投入下一轮优化。
2025-05-18 10:01:37
275
转载 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
比较了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch与PPO和GRPO两种强化学习算法的兼容性。这表明ZeroSearch不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为LLM的检索能力提升提供了广阔的空间。这些算法为模型提供了不同的优化策略,使得ZeroSearch能够在不同的模型和任务中表现出色。随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。
2025-05-17 11:51:18
50
转载 带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架,教AI学会使用视觉工具
具体而言,需要先通过SFT进行“理论学习”(冷启动),然后通过V-ToolRL进行“上路实操”,根据任务完成情况获得奖励或惩罚,不断优化策略。未来,他们将继续扩展OpenThinkIMG支持的工具和模型,探索更复杂的任务场景,并期待与社区共同推动这一激动人心的领域向前发展。项目通讯作者为港中文。具体而言,随着训练的进行,模型平均调用的工具次数显著下降,说明它学会了“好钢用在刀刃上”,只在必要时才使用工具。这一算法让AI通过强化学习,在与视觉工具的真实交互中,从错误中学习,自主探索和掌握最佳的工具使用策略。
2025-05-17 11:51:18
72
转载 OpenAI:GPT-5就是All in One,集成各种产品
相比以往,良好的软件工程实践越来越重要,包括清晰的代码模块划分、对关键功能的充分测试、高效的测试流程,以及便于快速审核的代码结构。虽然它目前仍处于研究预览阶段,但未来会进行改进,成为一个非常有用的工具。: 如何确保Codex用来增强人类开发人员的能力而不是取代他们,特别是那些依靠边做边学的初级开发人员和自学成才的程序员?作为强化学习领域的研究者,我们对这类研究方向感到兴奋,并且认为强化学习在LLM和编码领域的应用前景广阔。: GPT-5是我们的下一代基础模型,核心目标是提升现有模型的能力,减少模型切换。
2025-05-17 11:51:18
42
原创 做AI眼镜,为什么一定要有定制化大模型 | 对话雷鸟创始人李宏伟
这件事情是蛮重要的,举个例子,比如你去徒步的时候,你一边走要一边举起手机来拍,体验就不太好,或者是你去旅行,在海外,比如在巴塞罗那的街头去City walk,你就不希望不断掏手机出来,你希望直接拍到,不管是照片还是视频,这样效果就比较好。比如芯片,我们也在跟一些芯片公司定制;带显示的眼镜,一方面可以把原来的体验做得更好,比如说第一视角的拍摄,现在我们第一视角的拍摄,因为没有显示,所以我们不知道当时拍的大概是什么样子,但有了显示之后,我就可以做预览,我就可以知道拍的什么样子,这样才能拍到我想要的画面。
2025-05-16 13:36:53
745
转载 ChatGPT的记忆机制被公开了
但ChatGPT无法正确维护消息顺序,也无法在明确的时间范围内回忆,例如:“引用在过去一小时内发送的所有消息”,因此它应当是通过对话摘要和消息内容进行消息检索。,于是各路技术大佬开始着手破解起新记忆功能的具体机制和技术实现路径,甚至披露了连官方都没有透露的聊天记录系统的三大子系统细节。首先是大家最熟悉的保存记忆系统,简单、用户可控,用以保存用户自定义信息,例如你的姓名、喜欢的颜色或饮食偏好。好的方面,记忆系统帮助ChatGPT平台上的OpenAI模型,提供比API更好的用户体验。欢迎在评论区多多留言讨论~
2025-05-16 09:30:38
29
转载 GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
不同Scope相当于不同范围和难度的子排行榜,允许能力各异的模型各展所长,从“全能冠军赛”一路覆盖到“单项能力赛”, 既保证了顶尖通才模型有舞台角逐全能桂冠,也让普通模型能选择合适范围参与比较,降低了社区参与的门槛。在这些技能背后,General-Bench跨越了29个跨学科知识领域,囊括自然科学、工程、医疗、社会科学、人文学科等,从图像识别到跨模态推理、从语音识别到音乐生成、从3D模型到视频理解与生成,应有尽有。”这一问题的回答上,过去常用的多模态大模型评测方法是堆砌多个任务的成绩。
2025-05-16 09:30:38
180
原创 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!
AI教育硬件方面,MiniMax为听力熊团队提供底层模型支持,专为青少年解决学习、生活中的各种问题,不局限于问题回答,还可以进行适当的反馈和情感表达,兼顾教育与陪伴场景。就在年初,MiniMax还完成了MiniMax-01系列开源,包含两个模型,基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01,为开源社区提供优质选择。,这种架构创新极大地提升了模型的计算效率,降低了成本,尤其在处理超长文本场景中,展现出显著的可扩展性。此外,研究团队还探索了模型的多种下游应用。
2025-05-16 09:30:38
577
转载 个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
模型并行与数据并行结合:将400亿参数拆解为128个分片,分布在不同节点进行 “模型并行” 训练,同时每个节点处理独立的数据批次(“数据并行”),通过DisTrO优化器同步梯度更新。并且,旋转位置嵌入的运用,有效解决长序列位置依赖问题,从多维度保障了训练的高效性与模型性能的优质性。以往类似规模的模型训练往往需要耗费大量的资源和时间,并且通常是由大型科技公司或专业研究机构凭借其雄厚的资金和算力优势来完成的。这一设计彻底摆脱了对传统云服务商高带宽网络的依赖,即使是家用宽带连接的GPU,也能稳定参与训练。
2025-05-15 16:37:34
193
转载 梁文锋署名DeepSeek新论文:公开V3大模型降本方法
简单来说,下一代AI硬件要向算数快(低精度计算+本地细粒度量化)、传话快(直连网络+智能路由)、记性好(3D内存+近存计算)、不宕机(自愈网络)的方向改进,才能更好地应用于大模型训练,实现高效扩展。针对计算效率低的问题,下一代的AI硬件需要提高累积寄存器的精度,支持FP32累加,或可配置精度(如训练用FP32,推理用FP16)。DeepSeek-V3采用类似的思路,其总参数虽然是6710亿,但每次仅激活370亿参数,训练成本仅为同规模稠密模型的1/10(如Llama-3.1的训练成本是其近10倍)。
2025-05-15 16:37:34
57
转载 阿里开源全能视频模型!生成编辑都精通,1.3B版本消费级显卡可跑
提示词:在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。模型已在GitHub、Hugging Face和魔搭社区上线,动手能力强的小伙伴现在可自行本地化部署,至于其他想在产品端直接体验的朋友,可能还要等一两天。生成的视频如下,不仅还原了文字所描述的氛围感,而且娃娃和小蛇的动作姿态都比较自然,整体构图和谐。按照万相产品负责人的说法,“所有你能想到的关于视频生成的玩法,几乎都在这里了”。
2025-05-15 14:26:26
294
转载 字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
另外,当特定重要头部被屏蔽时,1.3B模型在某些任务上的性能显著下降,而AttentionInfluence方法选择的数据往往能改善7B模型在这些任务上的性能,表明该方法具有预测能力。受CLongEval中提出的关键段落检索评估任务启发,团队采用了一种类似的简单proxy task,在可控环境下评估大语言模型的检索能力,并识别与检索和推理强相关的注意力头。在这项工作中,团队使用一个基于类Llama 2架构的1.3B参数模型作为小型预训练语言模型,使用平均分数作为头的最终检索分数,并按该分数对其进行排序,
2025-05-15 14:26:26
43
转载 全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
通过对不同数据筛选方法所筛选出的数据长度进行比较,可以看到DCLM 和FineWeb-Edu显示出明显的短数据向量和长数据向量趋势,而PreSelect筛选的数据在长度分布上更接近原始长度分布。从已通过人工规则集和多种质量评分模型筛选,并经过不同粒度的文本级和语义级去重的vivo自有Web数据集中,随机抽取5T tokens作为基础数据,分别采用PreSelect与Random方法各自筛选10%(即500B tokens),训练参数规模3B的模型并评估下游任务效果。
2025-05-15 12:26:55
30
原创 新晋顶流Agent颠覆设计师!Lovart一手实测来了:是该刷屏爆火
其次,Lovart内部还构建了一套设计流程,能够将用户的高层设计需求自动拆解为结构化的任务序列,包括风格定义、元素选择、布局设计到最终渲染。一番深入体验下来,不得不说,Lovart带来了不同于其它AI设计工具的体验,能够理解设计流程和专业需求,交付更接近专业水准的成果。有点意外,Lovart并没有立刻生成,而是在原Logo的基础上又设计了一番,其中有忠实于原Logo的,也有改动大一些的。其中就包括图层、蒙版、文本微调等,比如图层中,还支持透明度、色调、饱和度、阴影、曝光、对比度等精细调节。
2025-05-15 12:26:55
766
转载 新版Claude曝光:“极限推理”成最大亮点
这种协作式推理,让新模型更接近于人类协作者的思维方式,能够像人类一样进行推理,而不仅仅是作为“计算器”。但也有网友回应称,这是来自The Information的消息,还是比较靠谱的信源。这一消息来自The Information,根据它的说法,新版模型最大的亮点,就是。的任务,模型会自动测试生成的代码,并在发现错误时进行修正,而不是简单地输出结果。从曝光的特性来看,新模型的架构更加适应不同的任务和场景,减少了对人类监督的依赖。而Anthropic这边,官方也发布了一项正在进行的计划,称是。
2025-05-15 12:26:55
27
转载 Switch 2芯片细节曝光!英伟达专门定制支持DLSS,网友:掌机模式相当于PS4
ARM官方信息显示,A78C有多种配置可以选择,Switch 2选择的是64K的L1指令缓存+64K的L1数据缓存,L2是每个核心都有256K,L3则是八个核心共享4MB。之前Switch 1首次发布时,老任宣传采用了“定制的英伟达Tegra处理器”,但实际上用的只是普通的Tegra X1。有意思的是,在掌机模式下,CPU频率反而更高,尚不清楚具体原因,数毛社对此的推测是为了拉平内存带宽下降带来的性能影响。内存,包含了两个6GB的内存模块,底座和掌机模式下的带宽分别为102GB/s和68GB/s。
2025-05-15 12:26:55
78
转载 陶哲轩DeepMind梦幻联动,最强通用科学Agent来了!一口气解决芯片设计、矩阵乘法和300年几何难题
通过找到将大型矩阵乘法运算划分为更易于管理的子问题的更智能方法,AlphaEvolve将Gemini架构中的这一重要内核加速了23%,从而将Gemini的训练时间缩短了1%。比如,它发现了一种使用48次标量乘法来对4x4复值矩阵进行乘法运算的算法,改进了Strassen于1969年提出的算法,该算法此前被认为是此类算法中的最佳算法。基于计算机程序的极简代码框架,它设计了一种基于梯度的新型优化程序的诸多组件,发现了矩阵乘法的多种新算法。在20%的案例中,它改进了之前已知的最佳解决方案。
2025-05-15 09:25:48
161
转载 讯飞AI耳机新品1499开卖,三年成绩单公布:用户破百万,AI调用破千亿
而翻译、跨语种交流作为讯飞AI耳机的传统技术优势,目前已经覆盖同传听译、面对面翻译、通话翻译三大场景,支持32种语言实时互译。,就是根据最近你产生的记录,推测你可能想要进一步了解的内容,并在互联网上搜索相关的信息,甚至可能生成一个深度报告。而用户高留存,积累更多真实数据,同样会激发更多技术创新、场景创新。这个场景值得说一说,当你在跨国通话的时候,它会自行完成双向翻译,对方甚至无需使用耳机或安装App。,正如开头所展现的那样,模仿你的声音来替你打电话,完成预定餐厅、预约理发这类简单却又费时的任务。
2025-05-14 18:02:08
220
转载 ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
在完成自预训练后,OmniAudio团队将模型与双分支视频编码器结合,同时提取视频的全局特征和局部视角,进行有监督微调,以达成模型可根据360° 视频生成高保真、方向准确的空间音频的效果。传统的视频到音频生成技术主要关注于生成非空间音频,比如手机外放或者耳机里的声音,这些音频缺乏方向信息,无法满足沉浸式体验对3D声音定位的需求。OmniAudio的研究团队表示,未来的工作将探索更好地理解多目标360° 视频的技术,并通过持续收集和扩充数据集,进一步推进该领域的发展。
2025-05-14 16:55:45
44
转载 百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
在动作映射阶段,采用轻量级的MLP网络学习从人体动作到人形机器人动作的映射关系。又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。实验表明,这种表示方法能更好地发挥大模型的潜力,特别是在生成精细动作方面具有明显优势,为构建下一代动作生成模型奠定了新的技术基础。
2025-05-14 16:55:45
115
原创 数据中心不必建在地球!中国企业已经把算力设施送到了太空
中国科学院院士、中国科学院大学杭州高等研究院院长王建宇表示,随着卫星对地观测的分辨率越来越高,数据量也在不断增大,将数据全部送至地面再进行处理,不仅传输量大,数据应用的及时性也受到影响。但地理空间和能源都存在有限性,所以人们也开始探索新的数据中心部署地点的脚步,抛开太空不谈,在山洞、海底、极地等地区,都已经有了数据中心的身影。今年2月,一个新的数据舱又接入该数据中心,形成了海底智算中心集群。并且,太空中的计算卫星,将不仅是一种新的算力部署方式,还会改变科学研究的范式,支撑科学家探索更多的未知。
2025-05-14 16:55:45
872
转载 奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务
你的生活只是不断附加到上下文中,你的公司也对你公司的所有数据做同样的事情。将在这种订阅制操作系统界面起到重要作用,确保所有的东西都能被合成为一种,能够使用OpenAI登陆其他服务,而其他服务的SDK将会接管ChatGPT的UI,实现个性化定制。尤其是大学生群体,他们使用ChatGPT的方式与使用操作系统类似,拥有复杂的设置方法,将其连接到文件,并记住或保存相当复杂的提示。借鉴年轻人的做法,奥特曼相信在未来开发高效的订阅制AI服务,对你的全部历史进行推演,可以从根本上改变日常生活中与技术的互动方式。
2025-05-14 16:55:45
49
转载 看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
整体而言,虽然是“以小博大”,但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。他们构建了一条完整的数据pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。其二,结合人类反馈和可验证奖励信号,通过PPO算法进行训练,以提高模型的对齐能力和推理能力。与此同时,在内部测试中,新模型尤其在视觉推理、文档理解、3D空间理解等方面表现出色。,其中包括19项视频基准测试中的14项,以及7项GUI智能体任务中的3项。其一,使用高质量的指令数据对模型进行微调,包括一般指令和长链推理。
2025-05-14 14:07:53
91
转载 所有AI工具共享记忆!MCP协议杀疯了:100%本地运行,Cursor、Claude都能用
例如,在进行文本处理时,通过OpenMemory MCP的标准化内存操作,不同的编辑工具都能够方便地获取和修改文本的相关信息,如标题、关键词、摘要等,避免了因不同工具之间数据格式和操作方式不一致而导致的问题。借助 OpenMemory MCP,Cursor在编写代码过程中产生的关键信息,如函数定义、变量使用等,能够被Claude获取并利用,使得Claude生成的注释和文档更加准确、详细。无论是数据的存储位置、访问权限还是使用方式,都由用户自主决定,确保了数据的安全性和隐私性。
2025-05-14 12:57:59
227
转载 Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。
2025-05-14 12:57:59
90
转载 推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
虽然研究成本的高低并不影响算力和性能之间的关系,但如果相关研究保持“花钱如流水”的状态,那么推理模型可能无法达到人们心中预期的最佳水平。上述的预估和线索指向一个事实,那就是目前最前沿的推理模型,比如o1,甚至o3,它们的推理训练规模都还没见顶,还能继续scalable。这表明,至少在数学和编程任务上,推理模型的性能随着推理训练的扩展而增强,就像预训练的scaling law一样。,上面展示了o3和o1在AIME基准测试中的表现,以及两者在推理训练阶段可能所需的算力的对比——
2025-05-13 15:11:31
40
转载 AI大佬教你如何中顶会:写论文也要关注「叙事」
他在剑桥大学读了纯数学本科(2020 年毕业),并在量化金融领域实习过(Jane Street和Jump Trading),毕业后花了一年时间探索人工智能安全,在人类未来研究所、DeepMind和人类兼容人工智能中心实习。他还开发了一些工具和资源,包括用于语言模型机械可解释性的Transformer Lens库、全面的机械可解释性解释器和术语表,以及一个关于机械可解释性的 YouTube 频道,上面有许多论文讲解和实时研究讲解。再迭代扩展,从要点叙事开始,逐步完成引言、全文大纲、初稿,不断修改完善。
2025-05-13 15:11:31
36
转载 全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
在接下来的计划当中,Prime Intellect将进行提高推理-训练计算的比例,为模型提供推理链中的内置工具(网络搜索、Python 解释器等),以及融合独立训练的RL模型等一系列工作。另外,与普通的被动响应式传输不同,SHARDCAST的中继服务器会主动跟踪每个推理节点的权重版本,当发现版本落后时,会主动将增量权重推送给节点,确保了权重更新的实时性。这个proof证明了所提交的数据确实是由特定版本的模型、特定的输入、特定的随机数种子生成的,其生成基于安全哈希算法,确保了proof与推理过程绑定。
2025-05-13 12:46:11
115
转载 天文预测新SOTA!紫东太初&国家天文台联手攻克恒星耀发难题
该模型能精准预测恒星耀发事件,为天文学研究提供了全新的有力工具,也展示了AI for Science在天文学领域的巨大潜力。它能够根据不同恒星的光变曲线变化模式,准确预测耀发事件,即使是同一恒星不同变化模式的光变曲线,也能实现精准预测。去除数据缺失的影响,分别对其进行处理,并通过残差记录融合模块将历史耀发记录融入残差中,增强模型的稳健性。,有效整合了恒星物理属性和历史耀发记录,提升了光变曲线特征提取能力,进而提高了耀发预测的准确性。然而,目前通过观测获得的耀发样本数量有限,难以满足全面深入的研究需求。
2025-05-13 12:46:11
111
转载 文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
这样便能对一个Image Prompt生成多组Semantic-level CoT和Token-level CoT,又对得到的图像计算组内的相对奖励,从而更新GRPO,在一个训练迭代内同时优化两个层次的CoT。当前主流的自回归图片生成模型,如VAR,完全基于生成目标进行训练,缺乏Semantic-level CoT推理所需的显式文本理解。综上所述,T2I-R1的出现证明了CoT在图像生成中的有效性,实现了高效可拓展的生成架构,为多模态生成任务提供了新的推理增强范式。
2025-05-13 12:46:11
145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人