自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1810)
  • 收藏
  • 关注

转载 Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!

具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。

2025-05-14 15:57:11 38

转载 给MCP加上RAG,工具准确率提升200%,起飞~

测试中,候选MCP服务器的数量从1增加到11100,每次试验中随机选择一个“真实”MCP(唯一能满足任务需求的工具)和若干干扰项(distractors)。:随着可用的MCP(Model Context Protocol)服务器数量增加,将所有工具描述包含在单个提示中会导致提示过长,消耗大量token,并降低模型区分和回忆正确工具的能力。:与传统MCP客户端相比,RAG-MCP仅激活选定的MCP,降低了启动成本,并支持任意大小的工具集,而无需担心基础设施瓶颈。:用户的自然语言任务被编码并提交给检索器。

2025-05-12 16:45:28 35

转载 再见Cursor!谷歌放大招刷爆AI编程榜!

在官方博客中,他们还表示:这个版本原计划在几周后的Google I/O大会上发布,但由于Gemini 2.5太受欢迎,于是决定现在发。就在前几天,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》,成为首个大模型宝可梦联盟冠军,直接打破了此前Claude的记录。此次更新的重点就在于编码能力,包括不限于改进前端和UI开发,以及基础编码任务(例如代码转换和编辑,以及创建复杂的代理工作流)。除此之外,它还增加了一些新功能,比如听写入门应用,只需说出你的想法,Gemini就能将创意变为现实。

2025-05-08 15:59:55 50

转载 RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」

为此,研究团队人工检查了基座模型正确答案的 CoT 推理过程,发现对于大部分题目,基座模型在多次采样中至少存在一个 CoT 推理过程是正确的,从而确认了答案的得出符合逻辑而非随机蒙对。这篇工作刷新了 AI 圈里的「普遍认知」:此前各类基于 RLVR 做后训练的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。灰色表示模型不太可能采样的路径,黑色表示模型更可能采样的路径,绿色表示能获得正向奖励的正确路径。

2025-05-05 15:43:55 92

转载 Qwen3来了!

在多轮对话中,历史模型输出应仅包含最终输出部分,无需包含思考内容。我们提供了一个硬开关,严格禁用模型的思考行为,使其功能与之前的 Qwen2.5-Instruct 模型一致。,在思考模式下超越了之前的 QwQ(思考模式)和 Qwen2.5 指令模型(非思考模式),在数学、代码生成和常识逻辑推理方面表现出色。,在创意写作、角色扮演、多轮对话和指令遵循方面表现出色,能够提供更自然、引人入胜且沉浸式的对话体验。,能够在思考和非思考模式下精准地与外部工具集成,并在复杂的基于代理的任务中实现开源模型中的领先性能。

2025-04-28 22:07:02 69

转载 OpenAI姚顺雨:欢迎来到AI下半场!

的行动——它并不直接影响外部世界,然而推理的空间是开放的、组合上是无限的——你可以思考一个单词、一个句子、一段完整的文章,或者 10000 个随机的英文单词,但你周围的世界并不会立即改变。经过几次重大转折和一系列里程碑式的成就,我们找到了一个可行的方案,利用语言和推理来解决广泛的强化学习任务。在其他地方,方法与基准测试的对比甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告的引用次数约为 1300 次,而 Transformer 的引用次数超过了 16 万次。

2025-04-24 16:52:31 53

转载 首篇MCP技术生态全面综述:核心组件、工作流程、生命周期

等行业领导者已将MCP集成到其产品中,例如Anthropic的Claude桌面版和OpenAI的Agent SDK,显著提升了AI代理与外部工具的交互能力。Cursor通过MCP集成了AI驱动的代码助手,使开发者能够在IDE中直接调用外部API和工具,自动化复杂任务,提升开发效率。:一种标准化接口,旨在实现AI模型与外部工具和资源之间的无缝交互,打破数据孤岛,促进不同系统之间的互操作性。:MCP服务器接收到请求后,返回一个初始响应,列出其提供的工具、资源和提示,供客户端使用。

2025-04-22 17:35:32 55

转载 第一本给程序员看的DeepSeek图书上市了!(文末送书)

这么全面详细的内容编排,无论是对大模型开发抱有强烈兴趣的初学者,还是有一定基础的技术人员,都能通过本书快速了解并上手DeepSeek 大模型技术,深入探索其在工业与商业场景中的应用潜力。突破传统技术书籍重理论轻实践的局限,从生成式AI的理论基础讲解到DeepSeek-V3的技术架构,再到具体的开发实践,构建了从模型部署、参数微调到应用落地的全链路技术框架。在训练中采用 FP8 混合精度技术,DeepSeek V3 在降低显存需求的同时,保持了数值计算的稳定性与模型性能,大幅减少了硬件资源占用。

2025-04-17 11:03:39 139

转载 聊聊强化学习发展这十年

说个开玩笑的话,如果DS的文章放到几年前RL的审稿人手里,他大概率会得到这样的回复:这只是采用了策略梯度的方式将不可导的损失/奖励函数用于优化神经网络参数而已,请不要说自己使用了强化学习。这导致像作者这样的old school,在看到最新的强化学习应用文章时,总会试图问文章作者几个基础的问题,状态是啥,动作是啥,奖励是啥。同时这个阶段,有大量的强化学习研究者开始涌入这个方向,大家总体分为两拨,学术界的学者试图研究通用的强化学习算法,而工业界的人则在给强化学习找应用场景。

2025-04-13 12:15:05 35

转载 “谷歌版MCP”来了!开源A2A,不同厂商Agent也能协作

每个部分都有指定的内容类型,允许客户端Agent和远程Agent协商所需的正确格式,并明确包括对用户UI功能的协商,例如iframe、视频、网页表单等等。专注于让Agent以自然非结构化的模式进行协作,即使它们之间没有共享内存/工具/上下文信息,致力于实现真正的Agent多场景,不会将某个Agent局限为一种“工具”。“客户端”Agent与“远程”Agent之间进行通信,客户端Agent负责制定和传达任务,远程Agent则负责执行这些任务,或是提供正确信息,或是采取正确行动。

2025-04-12 19:11:21 68

转载 ACM MM 告一段落!NIPS 2025开冲!

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。我们凭借的是资深导师的指引、高效的辅导策略及严谨的流程,帮助学生解决在论文撰写过程中遇到的问题,提高学生的科研素养和论文质量。研梦非凡背靠研途考研(名师张雪峰、徐涛),深耕教育行业十余年,一直秉持着重交付,重口碑的公司理念,信誉有保障。比如毕业、职称、项目结题等,有明确时间节点,却苦等半年审稿,心力交瘁。

2025-04-10 14:01:05 547

转载 首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。值得一说的是,在拿下谷歌offer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。

2025-04-09 15:27:22 20

转载 Llama 4爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun出面救火

更劲爆的是,团队直指Meta在提交模型时,并非用的是原版,而是Llama-4-Maverick-03-26-Experimental。为了平息争议,团队火速给出解决方案,公开对战数据同时,并尽快上线Llama 4 Maverick公开版,并随后更新榜单结果。业界一直发出质疑——Llama 4的设计更像是古早的模型,复杂MoE架构、超大参数规模、高内存需求,与开发者需求渐行渐远。然而,开发者下载后发现,Meta公开的与HF公开下载的模型大相径庭,一时间大模型排行榜被全网骂惨。

2025-04-09 15:27:22 25

转载 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

秉承对开源的承诺,Meta将Llama 4 Maverick和Llama 4 Scout提供给用户下载,用户可以在llama.com和Hugging Face上获取,之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。Llama 4 Maverick是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如GPT-4o和Gemini 2.0,甚至能与体量更大的DeepSeek v3.1在编码和推理上竞争。

2025-04-06 09:42:32 30

转载 再次封神!AI大模型又起飞!

是衡量大语言模型“从量变到质变”的关键,是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。▶AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,2节直播课,为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用!老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。

2025-04-01 12:00:37 43

转载 智谱发布首个具备深度研究和操作能力的AI Agent

这是因为智能体任务往往涉及多轮复杂交互,32B的参数量使得 GLM-4-Air-0414 能快速执行复杂任务,为AI智能体的真正大规模落地应用提供了坚实基础。将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了对应的推理版本 GLM-Z1-Flash,在保留大部分效果的情况下。AutoGLM 沉思背后的模型,是我们全新推出的Agent大脑——沉思模型,即通过强化学习,让模型学会自我批评、反思、甚至沉思,在AI Agent的发展过程中,智谱始终在不断探索和创新。

2025-04-01 12:00:37 136

转载 关于DeepSeek R1的四个常见误区

而是要看是否这些反思 pattern 帮助模型提高了准确率,或者说是,带反思 token 的 response 的 accuracy 是否真的高于 response 的平均 accuracy。此外,不同的 reflection pattern 对 accuracy 的贡献也不相同,try another approach 就是比 compute again 要高级一些,模型能不能在 reward 持续上涨的过程中,自发地提升优质 reflection pattern 的出现概率,也是我们要观察的重点。

2025-03-31 13:01:35 55

转载 DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

在 KCORES大模型竞技场中,Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者,DeepSeek-V3-0324以328.3分拿下第三名,仅次于Claude 3.5 Sonnet。不止如此,Cline还表示,DeepSeek-V3-0324较之前的版本增加了60%的专家(从160增加到256),使用了FP8精度训练将计算效率翻倍,不仅使前端编码能力增强,数学与逻辑能力也有所提升。如果它们能免费提供,那原本只有财力雄厚的大型机构才能获得的高级AI系统,会变得人人可用。

2025-03-26 18:57:12 53

转载 一文看懂多模态思维链

不仅阐释了与该领域相关的基本概念和定义,还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发展的未来研究方向。超越传统的文本推理范式,引入多模态思考过程,例如在几何问题中生成草图,或将文本推理过程可视化,从而提升多模态场景下的解释性与直观性。:动态构造树状或图状推理路径。:采用预定义的规则流程(如“辩论-反思-总结”模式),分阶段逐步逼近最终决策,确保推理过程的有序性。:模型根据任务需求动态生成子任务序列,例如先定位物体位置,再分析其属性,实现自适应的结构化推理。

2025-03-26 18:57:12 32

转载 刚刚!腾讯混元自研深度思考模型「T1」正式发布

在体现推理模型基础能力的常见benchmark上,如大语言模型评估增强数据集MMLU-PRO中,混元T1取得87.2分,仅次于o1。同时,混合Mamba架构针对长序列处理进行了专项优化,通过高效的计算方式,在确保长文本信息捕捉能力的同时大幅降低资源消耗,在相近的激活参数量下,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力。「T1」吐字快、能秒回,还擅长超长文处理,是腾讯自研的强推理模型,已经上线腾讯云,即将在腾讯元宝灰度上线。

2025-03-22 11:22:40 113

转载 再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件

关于未来,研究者希望消除噪声条件将为基于去噪的生成模型的新进展铺平道路,激励业界重新审视相关方法的基本原理,并探索去噪生成模型领域的新方向。例如,只有在没有噪声条件的情况下,基于分数的模型才能学习到独特的分数函数,并实现经典的、基于物理学的朗格文动力学。本文的研究涉及这种噪声条件的影响,即考虑了 NN_θ(z) 和 NN_θ(z|t),参见图 1(右)。实验表明,这个误差边界与所研究的模型的噪声 - 无条件行为有很好的相关性,特别是在模型出现灾难性失败的情况下,其误差边界要高出几个数量级。

2025-03-20 15:14:38 33

转载 超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。为此,研究者建议进行过度采样,过滤掉等式 11 中所示精度等于 1 和 0 的提示语,保留批次中所有具有有效梯度的提示语,并保持一致的提示语数量。在使用 PPO 或 GRPO 进行的初步实验中,研究者观察到了熵崩溃现象:随着训练的进行,策略的熵迅速下降(如图 2b)。

2025-03-18 17:32:30 260

转载 大模型面经-淘天

三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen 这些,以及当时的 o1 推理模型。一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的。二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些。

2025-03-18 17:32:30 48

转载 超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

结果发现,MRT 的表现始终优于结果奖励强化学习,在多个基准测试(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 亿参数规模的 SOTA 结果,其相较于基础模型的准确率提升是标准结果奖励 RL(GRPO)的约 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基础模型的 5 倍。另一方面,如果 LLM 仅专注于发现(discovery),那么探索就更可取,这样 LLM 就可以耗费几个片段来尝试不同的方法,并进行验证和修改,然后得出最终答案。

2025-03-17 16:02:10 741

转载 2025年99%代码AI生成!人类将被全面超越

历史证明,最具生产力的公司会抢占市场份额,推出更多产品,进而占据更大的市场份额」。再到如今,AI编程能力强到令人发指,不仅在算法编程竞赛中表现出色,在实际应用中,比如开发某个网站的前端界面,或者要在后端搭建基础架构,都能完成得很好。而现在,有了Sora,他可以在一个下午的时间里创作出40种不同版本的转场效果,尽情探索各种可能性,最终选出最佳创意,再交给专业团队完善。同时,他也指出,这并不意味着程序员将彻底被取代,AI的崛起将迫使我们重新思考「有用」和「无用」的定义,探索如何最大化人力资本的价值。

2025-03-17 16:02:10 55

转载 通义RAG团队开源LaRA框架: 模型越弱,RAG提升越猛?

来源:NLP前沿阿里通义RAG团队等提出RAG与长文本对比新框架,助力智能路由决策机制设计论文标题:LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing论文地址:https://arxiv.org/abs/2502.09977开...

2025-03-11 19:34:34 141

转载 使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

来源:机器之心没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到了DeepSeek开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。下面我们就来具体看看他的博客文章,了解一番他的开发思路。原文地址:https://hrishbh.com/teach...

2025-03-11 19:34:34 192

转载 邀请码炒到10万?OpenManus深夜开源打脸!Manus平替光速上线!

来源:新智元【导读】离了个大谱,Manus全网邀请码一票难求?激动人心的是,开源界凌晨来了一场核爆攻击,用3小时代码量开源了平替项目——OpenManus,免费体验不要邀请码!同时发布的还有另一个「Manus同款」OWL,直接干到GAIA基准测试开源最强!昨天,所有人都被Manus刷屏了,一个邀请码已经被炒到了天价。虽然被Manus强势刷屏,很多人却只能眼睁睁地看着,没法亲自上手体验,只因一码难求...

2025-03-07 15:30:20 94

转载 DeepSeek知识库,持续更新!免费领取!

从今年春节到现在,国产大模型 DeepSeek 彻底火了!无论是科技大厂的技术分享,还是创业团队的创新应用,DeepSeek 都成为了高频关键词。它凭借强大的功能和易用性,正在改变我们处理信息、解决问题的方式。现在,掌握 DeepSeek 已经不仅仅是程序员的专利,而是每一个想要提升效率、创造价值的职场人必备的技能!然而,面对网络上铺天盖地的资料,很多人却陷入了迷茫:网上这么多教程,哪些才是真正有...

2025-03-05 13:31:14 33

转载 Deepseek-R1-Zero复现实验细节

作者:Courage(大模型/强化学习算法工程师)原理简介实验设置基座模型Qwen2.5-14B-BaseQwen2.5-32B-Base训练数据数据集:DeepScaleR-Preview-Dataset:由AIME、AMC、Omni-MATH、Still dataset构成,约4w条,较难;RLVR-GSM&RLVR-MATH:由GSM8K和MATH混合,约1.5w条,较简单;在用户问...

2025-03-05 13:31:14 80

转载 DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

来源:机器之心GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。简单来说,GRPO 算法丢弃了 critic model,放弃了价值函数近似,转而通过组内样本的相对比较来计算策略梯度,从而有效降低了训练的不稳定性,同...

2025-03-03 18:47:13 42

转载 刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中

来源:机器之心上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。第一个项目,果然与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型MLA解码核:FlashMLA。该项目上线才 45 分钟就已经收获了超过 400 star!并且在我...

2025-02-24 16:31:05 39

转载 首篇多模态 RAG 全栈技术综述出炉~

来源: PaperAgent跨模态对齐和推理为Multimodal RAG:多模态RAG带来了独特的挑战:提出了一个多模态RAG系统的通用框架;并对多模态RAG系统进行了系统且全面的分析,涵盖了数据集、评估指标、基准测试、评估方法以及检索、融合、增强和生成方面的创新多模态检索增强生成(RAG)通用框架,突出展示了每个阶段所采用的先进技术和方法。查询预处理、多模态数据库、检索策略(模态为中心)、...

2025-02-24 16:31:05 77

原创 太快了!DeepSeek 满血版来了!免费且不限次数!

最近 DeepSeek 太火,问题来了,你是不是经常遇到这个情况?服务器繁忙,请稍后再试。想要使用满血版DeepSeek怎么办?!问小白轻松帮你搞定!主打一个不卡、零延迟、不限次、全免费、随便用!问小白一直致力于帮助用户获取高质量信息,凭借其强大的联网搜索能力和成熟稳定的技术架构,在 2023 年 3 月率先采用自研 Moe 模型架构,对 Deepseek 的 Moe 模型也非常熟悉。 APP 以...

2025-02-21 17:54:38 360

转载 DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升

来源:量子位用代码训练大模型思考,其他方面的推理能力也能提升。DeepSeek团队最新研究,利用300多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对Qwen、Llama等模型进行了训练。结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”...

2025-02-21 16:39:11 52

转载 港大百度打造超长视频理解引擎VideoRAG

来源:机器之心今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制,仅凭单张RTX 3090 GPU (24GB) 就能高效理解数百小时的超长视频内容。论文标题:VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos论文链接:h...

2025-02-21 16:39:11 332

转载 本科毕业6年半,李钦宾已任985高校博导

2月20日记者从华中科技大学教师主页获悉此前担任新加坡国立大学研究员的李钦宾已于今年1月起担任华中科技大学计算机科学与技术学院教授、博士生导师据官网资料显示,李钦宾,华中科技大学教授、博士生导师,国家级青年人才。2018年6月本科毕业于华中科技大学,2022年博士毕业于新加坡国立大学,并曾分别于加州大学伯克利分校和新加坡国立大学担任博士后和研究员。李钦宾李钦宾主要研究方向为分布式学习和大模型系统,...

2025-02-20 16:32:08 51

转载 重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

来源:机器之心嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将DeepSeek的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法,靠着 GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上...

2025-02-20 16:32:08 141

转载 刚刚!DeepSeek团队丢出注意力新机制重磅论文

来源:机器之心DeepSeek 新论文来了!相关消息刚刚发布到 ???? 就吸引了大量用户点赞、转发、评论三连。据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。新研究发布两个小时,就有近三十万的浏览量。现在看来,DeepSeek 发布成果,比 OpenAI 关注度都高。论文标题:Nat...

2025-02-18 19:51:17 60

转载 马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

来源:新智元【导读】马斯克口中全世界最聪明大模型Grok-3,终于震撼登场!20万块GPU训出的模型,实属全球首次。果然,Grok-3已火速屠榜多个排行榜,击败o3-mini(high)和DeepSeek-R1。人类史上首个在20万块GPU上训出的模型终于问世!刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——Grok-3(Beta)、Grok-3 mini首个推理模型Grok...

2025-02-18 19:51:17 82

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除