自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(282)
  • 收藏
  • 关注

转载 Nano Banana Pro震撼登场!图像编辑竞技场迎来全新强者

我们诚邀研究人员、行业从业者以及所有关注大模型发展的用户,积极参与投票,助力中文大模型评测体系的完善。当有效投票数达到统计要求时,它将正式进入排行榜并获得相应排名。提示词:沙发替换为绿色皮质沙发,沙发上面有被狗咬破的几个洞孔。竞技场的上线,为用户提供了更加开放和互动的方式。与上一代 Nano Banana 的性能对比。与 GPT-Image-1 的能力对比。提示词:把图中的小鸭全部替换为小猫。提示词:把猫替换成张嘴打哈欠的红狐。【图像编辑竞技场迎来重磅升级】原文,直达图像编辑「竞技场」

2025-11-25 11:53:41 3

转载 这大概是我见过最通俗易懂的AI发展历程科普详文了

这阶段(也是我们正在经历的)的AI,我认为他已经是一个读遍天下书的大学生,拥有了丰富的知识积累加上了一定量的实习经验,下一阶段就是未来,他应该会走上社会,成为一个职场上的专业人员,把多年积累下来的知识和实习期积累的经验更好的应用在职场上,同样的,我们可以把这阶段的AI称为“深度学习/大模型AI”。我们在AI成长期(1990-2016)这一阶段发现,AI虽然出现了机器学习的概念,并且通过机器学习的方式训练出了AI模型,但这个AI模型太“偏科”了,一旦涉及到它训练数据以外领域的知识,他就可能不知道了。

2025-11-21 18:49:20 27

转载 智谱Glyph:把信息,压缩成图片

用了 document_style、web_style、dark_mode、code_style 等多种风格。Glyph 的表现和 Qwen3-8B、GLM-4-9B-Chat-1M 相当。DeepSeek-OCR 用来做 OCR、处理 PDF、生产训练数据。DPI、页面大小、字体、字号、行高、对齐方式...通过搜索的方式,找到效率最高的渲染方式。用找到的最优配置做 SFT 和强化学习。从 29.18% 提升到 45.57%验证利用视觉模型实现上下文扩展的可行性。利用视觉模型实现上下文扩展的可行性。

2025-10-21 18:47:18 116

转载 字节开源Seed-OSS模型,36B的理想尺寸,但中文好像不行

好起来,这两个月,阿里、腾讯、字节、百度、DeepSeek、智谱、阶跃、百川、小红书、知乎、昆仑万维等等等,你能想到的大模型公司,都开源了。放出非合成数据版本模型,是一个亮点,大家都知道,在预训练阶段加入合成数据、指令数据,核心是为了给Base提点,榜单好看。当然我还没有真正测试中文上的场景,但没有训练应该也不会太好,毕竟数据是12T,也不是太多。昨天晚上,字节也开源了大模型-Seed-OSS,36B大小,有三个模型,Seed-OSS-36B-Base:预训练模型,,交个朋友吧,一起学习,一起进步!

2025-08-21 10:41:00 45

转载 世界人形机器人运动会,幕后更精彩!

北京联通智网优化中心5G-A专家曾伟告诉《中国电子报》记者,相较于人使用的网络,人形机器人对网络提出了三方面要求:“一是大带宽,机器人的运作依托于许多传感器、摄像头等设备的协同,需要实时将大量数据与视频等内容传输至云端或边缘节点进行分析处理,这就对网络的带宽提出了新的要求。利亚德为大会开幕式提供了专业的视效服务与保障,其高清LED显示屏以其高亮度、高对比度、高刷新率的特性,清晰呈现人形机器人的每一个动作细节,构建了兼具未来感与竞技氛围的震撼舞台效果,为赛事点亮更多精彩瞬间。田径、场景赛、表演赛……

2025-08-17 23:22:20 83

转载 GPT-5,翻车了!

他预测,随着技术成熟和开源模型的追赶,未来“足够好”的AI模型将能在消费级硬件上本地运行。OpenAI在系统卡中称其为一个“统一系统”(unified system),但紧接着的解释却耐人寻味:该系统包含一个处理多数问题的“快速模型”,一个用于解决难题的“深度推理模型”,以及一个实时“路由器”来决定使用哪个模型。从一个令人啼笑皆非的图表错误,到一个经典的物理学“伪科普”,再到对模型核心架构的质疑,精英开发者社群用最挑剔的眼光,对GPT-5乃至当前AI技术浪潮进行了一次彻底的“冷水浴”。

2025-08-08 13:00:03 92

转载 从上海 WAIC 归来的一些见闻和感想

出门问问 TicNote 现场直接卖光了,科大讯飞区也超级火爆,语音相关的产品区让人感觉太卷了,大家把能想到的硬件软件都做了。逛完 AI 区,很奇怪,发现百川和01都没来,Kimi 应该是来了,但是为啥我找不到 Kimi 的展台...MiniMax 展台,在展区里属于 C 位了,今年视频、陪伴、声音、Agent四个业务都赚钱了,商业鬼才。在路上堵了一小时,终于到达了会场,逛了一圈发现大家都在不在这里,而在展览馆。第二天,去机器人展区逛了逛,还是觉得具身智能有亿点点抽象,大家做的东西都差不多。

2025-07-29 12:41:32 61

转载 「沉思」实测:第一次,AI 自己把活干、把钱赚(附:10+场景实践)

它翻遍医学、法学、经济、艺术等 5 个典型领域的研究范式,对比传统学术流程与 AI 辅助写作的差异,输出了一万字以上的深度报告。沉思查遍小红书、B 站、知乎评测,列出不同风格相机的优缺点,区分胶片感、便携度、成像质感、售后口碑,并按风格和预算做了分组推荐。跳过一个广告,再手动滑动到底部;沉思从参数、重量、电池、热控、社区口碑五个维度做横评,结合用户的出差场景写出推荐意见,并附带了中英文评测引用。它制定了包含每日路线的攻略,还逐条查了小红书里每个景点的最新评论,标注了哪些推荐靠谱,哪些过誉,哪些值得错峰。

2025-03-31 18:05:15 146

转载 心法利器[131] | 盘点踩过大模型多轮对话的坑

举一个例子,多轮对话往往需要应对很多不同的问题,每个迭代周期增加几个,从无到有逐步完善,如果整个系统内只有一个大模型,随着功能变多,要不就是prompt越来越长,要不就是不断微调,无论是前者还是后者,都会对原有功能造成影响,甚至很难维持多个功能的正常运行,因此,在设计过程,需要提前考虑这些问题,确保系统安稳迭代,避免形成算法特有的技术债。注意对大模型内容的质检,无论是用户的输入还是大模型的输出,都需要关注,监控好用户诱导大模型生成问题内容的行为,以及大模型生成内容的质量,确保大模型生成内容的安全性。

2025-03-29 22:24:51 110

转载 R1复现小记:在业务场景的两类NLP任务上有显著效果

对于 model1,model3 和 model4,可以看到针对场景微调,有很大的提升,SFT微调(model3)使模型得分提升1.94(从3.62到5.56),在SFT基础上增加RL训练(model4)进一步提升0.24分(至5.80),总提升达2.18分,值得注意的是,RL训练后生成长度明显缩短(中位数从1824降至1042),可能表明模型学会了更简洁有效的表达方式。此外,为探究模型效果与生成长度的关系,我们统计了生成文本长度的四分位数(25%、50%、75%分位数)。

2025-03-28 20:29:51 168

转载 不到 4 万元的 DeepSeek-R1-671B-Q8 部署方案

另外,在使用 CPU 推理时,由于 SIMD 指令集对 8-bit 整数的点积运算有原生支持,更重要的是我们发现 Q4 的思维链平均长度比 Q8 长了 45%,也就是说多输出了 45% 的无效 Token,所以虽然 Q4 生成 Token 速度较快,但完成任务甚至会更慢。虽然 DeepSeek-R1 是开源模型,理论上每个技术爱好者都可以在家里部署一套自己的 DeepSeek-R1,但由于其模型总参数高达 671B,典型的私有化部署方案需要 8 张 141G 的 H20,成本超过 150 万元。

2025-03-27 21:12:28 844

转载 Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想

她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?国内Qwen是汪峰,国外Google是汪峰,昨天Google更新,放出新模型Gemini 2.5 Pro,凌晨OpenAI更新GPT4-o,上新图像生成功能,难受住了。什么东西,我刚要开喷,发现它回答的确实没有问题,仅修改字母,空格、数字和标点符号不修改,我才意识到这题我出的有bug。不过之前Google其实也上了生图模型,当时也是甩玩了一阵子,P图啥的一致性都很好,可以看@一泽老师的测试,

2025-03-26 18:42:30 608

转载 DeepSeek与Qwen组团开源了模型,冲!

每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。那么可以使用32B 模型。DeepSeek是在昨晚悄悄开源的新版本V3模型的,此次最大的亮点是。:调整输出样式以提供更详细、格式更好的答案,使其更符合人类偏好。:增强图像解析、内容识别、视觉逻辑推理等任务的准确性和细节分析。,提高了代码的可执行性,更美观的网页和游戏前端。:显著提高解决复杂数学问题的准确性。Qwen2.5-vl-32B模型。改进提高了函数调用的准确性,工具/MCP调用更加稳健。更美观的网页和游戏前端。

2025-03-25 19:35:28 197

转载 硬核,AI Agents全栈技术框架综述与未来

主管管理Agent之间的通信,并可以为专业化的代理分配特定的任务。这个过程在 ReAct 中缺失,而 Reflexion 正是填补这一空白的地方, 利用verbal reinforcement 帮助代理从之前的失败中学习的技术。工具使用是一种强大的技术,可以增强 LLM 的能力并弥补它们的不足。在训练 LLM 时,可以给它足够数量包含类似思维的例子的数据集,或者 LLM 可以发现自己的思考过程。实现短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。

2025-03-23 20:23:00 211

转载 OpenAI 新作: OpenAI Agents SDK

它通过强大的模型、丰富的工具集、灵活的知识管理、严格的防护措施和高效的编排工具,为开发者提供了一个生产就绪的平台。相比 Smolagents 的轻便和 LangGraph 的复杂,OpenAI Agents SDK 在性能、安全性和易用性上找到了平衡,特别适合需要高智能和可靠性的场景。作为实验项目 Swarm 的升级版本,Agents SDK 不仅继承了前者的灵活性,还具备了生产环境就绪的能力。例如,需要快速响应的聊天机器人可以用 GPT-4o-mini,而复杂的规划任务则更适合 o1。

2025-03-21 20:27:30 471

转载 前沿重器[59] | 淘宝LLM落地电商推荐实践启示

左边的方式是把LLM当做是特征提取器,旨在把用户和物料原始信息设计成prompt的模式,用LLM生成对应结果来进行表征。物料理解一直是推荐系统中比较困难的部分,在电商领域,各种商品的物料信息是非常复杂的,简单的muilti-hot的模式,在各种商品下,拓展性不高,而且数据非常稀疏,再者商品类目下还有些内容层面,不好做属性描述,文章举的例子是“特价”、“爆砍”等,而这里我还想补充类似“女朋友看到都哭了”、“儿童节”之类的,简单的文本编码显然不能很好地收集到这些信息,而这些正好是大模型所擅长的。

2025-03-20 22:06:54 330

转载 《中文大模型基准测评2025年3月报告》发布!

DeepSeek-R1 推理总分 78.97,分别领先 Claude 3.7 Sonnet、 Gemini-2.0-Flash-Thinking-Exp-01-21近4.37、7.47分,与o3-mini(high)相差5.54分,展现出较强的推理能力。R1和R1系列的蒸馏模型在总榜和任务榜单上的得分差距在10-20分之间,如R1在推理任务上的得分比在总榜上高出7分,DeepSeek-R1-Distill-Qwen-14B有近17分的分差,但DeepSeek-V3分差在3分之内。

2025-03-20 08:25:37 3807

转载 Search-R1:让大模型学会“检索+推理”的新范式

1)使用检索token mask技术稳定RL训练,2)支持多轮交错推理和搜索,以支持复杂的任务解决,3)设计了一个简单而有效的基于结果的奖励函数。总结2:(b) 展示了检索到的 token 损失遮蔽研究,检索 token 损失遮蔽可以带来更大的 LLM 效果提升,减轻发生意外的优化效果,并确保更稳定的训练动态。实验结果表明,无论使用基础模型还是指令调整模型,SEARCH-R1都能带来显著的性能提升,且对不同的RL算法(如PPO和GRPO)具有兼容性。论文提出了一个名为SEARCH-R1的框架,该框架。

2025-03-19 17:30:29 189

原创 不只有中美!法国AI公司今天发布多模态大模型 Mistral-Small-3.1

Mistral Small 3.1 具有轻量级设计,能够在单个 RTX 4090 或 32GB RAM 的 Mac 上运行,推理速度达到150 token/秒,适合在资源有限的设备上部署。Mistral Small 3.1 是法国人工智能初创公司 Mistral AI 推出的一款开源多模态大模型,具有240亿参数,性能在多个基准测试中超越了 GPT-4o Mini 和 Gemma 等同类模型。使其在资源受限的环境中表现出色,同时其多模态能力和多语言支持使其在国际化应用中具有广泛的应用前景。

2025-03-18 21:55:07 875

原创 Manus 是大模型 AI Agent + MCP, 那什么是模型上下文协议 (MCP)?

它是AI和工具沟通的“新基础”,给AI提供了一个统一、标准的方法,让AI能灵活地连接外部的数据和工具。比如下面的问题,大模型 Claude 一开始是不知道数据库中的表结构的,因此先发送请求分别确定 orders 表和 users 表中相应的字段,然后再对两张表进行 join 查询。简单说,MCP就像是AI的"大脑中枢",帮助它协调各种能力,让原本只会单打独斗的模型变成了能处理复杂任务的协作团队。MCP就是这样一种方案,它让AI能够更好地理解上下文,记住之前的对话,并且在需要的时候调用不同的工具。

2025-03-17 20:23:03 1589

转载 西湖大学|利用LLM做论文review到哪一步了?来看看DeepReview吧

3. 为每篇论文构建评审集 R,包括文本评估(Strengths, Weaknesses, and Questions)、互动讨论(rebuttal)和标准化评分(overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4]))。DeepReview 框架通过模拟人类专家评审过程,结合新颖性验证、多维度评估和可靠性验证,提高了评审的深度和准确性。

2025-03-15 22:46:34 455

转载 Manus 爆火出圈后|25年什么样的 Agent 会脱颖而出:简单胜于复杂

这些都是提前定义好的 workflow,这些workflow虽然在一定程度上能取得不错的效果,但存在明显的局限性:它们依赖于预先搭建好的workflow,限制了模型的自主性和灵活性,难以scaling,难以 cover 无穷无尽的边缘情况,每当有新的bad cases,可能就要在原来的工作架构上新增解决的模块,导致代码越来越臃肿,上限有限。可以是,把用户的问题问 GPT-o3,让 o3 采样 10 个不同的答案,由标注者选择哪个答案最好,用偏好学习的方式训练奖励模型,然后再把这个奖励模型应用到强化学习中。

2025-03-14 14:16:16 243

转载 Deepseek的RL算法GRPO解读

知乎:AIQL (已授权)链接:https://zhuanlan.zhihu.com/p/20585825634在本文中,我们将深入探讨Deepseek采用的策略优化方法GRPO,并顺带介绍一些强化学习(Reinforcement Learning, RL)的基础知识,包括PPO等关键概念。策略函数(policy)在强化学习中,表示在状态下采取动作的条件概率。具体来说,它是由策略函数...

2025-03-11 17:05:28 224

转载 不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了

DeepSeek R1 在首次发布时就展现出了强大的推理能力。在这篇文章中,我们将详细介绍使用 DeepSeek R1 构建针对法律文件的 RAG 系统的经验。我们之所以选择法律文件,是因为法律专业人士经常面临一项艰巨的任务:浏览案例、法规和非正式法律评论库。即使是最善意的研究也会因检索正确的文档而陷入困境,更不用说准确地总结它们了。这是 RAG 的绝佳领域!我们在大量法律文件数据集的基础上构建了...

2025-03-10 12:58:15 666

原创 不只有Manus!免邀请码的 flowith 和三个开源项目:GWL、OpenHands、browser-use

昨天发了一篇文章提到了开源复刻 Manus 的项目:《一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码》,有朋友推荐了另外一个23年已经发布的项目 OWL。01—OWL通用智能体OWL在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名第一!照例先放上官方地址:https://github.com/camel-ai/owl/OWL 是一个前沿的多智能体协作框架,推动任务自动...

2025-03-08 19:46:41 1913

转载 一文看懂Manus:实测体验+开源复刻方案,无需等待邀请码

昨天转发了关于 Manus 的文章后,很多朋友在问这个智能体产品的问题。用通俗的说法来理解:ChatGPT就像城市里的大型公共厨房,想做饭得去那里排队用他们的炉灶。而DeepSeek则像是家用电饭煲,公司能买得起,放在自己办公室就能用。Manus呢?过去用ChatGPT就像是你得手把手教厨师做菜:"先切菜,再放油,然后炒...",每一步都得你指导。而Manus就像是升级版的私人厨师,你只需说:"我...

2025-03-07 12:23:24 208

转载 一手体验首款通用Agent产品Manus - 唯有惊叹。

昨天夜里,深夜惊雷。一个新团队突然发了一个首款通用行的项目:Manus。演示在此,我人直接看麻了。看完我的第一感觉,卧槽,人类又要一败涂地了。这尼玛,就是OpenAI的DeepResearch和Claude的Computer Use的究极集合体,甚至,他还能自己写代码,直接Coding Agent。这特么是什么怪物啊。。。我预想到这一天会来,只是没想到,来的如此之早。Manus在GAIA的评分上,...

2025-03-06 08:57:44 94

转载 Deepseek-R1-Zero复现实验细节

知乎:https://zhuanlan.zhihu.com/p/27100972384原理简介实验设置基座模型Qwen2.5-14B-BaseQwen2.5-32B-Base训练数据数据集:DeepScaleR-Preview-Dataset:由AIME、AMC、Omni-MATH、Still dataset构成,约4w条,较难;RLVR-GSM&RLVR-MATH:由GSM8K和MATH...

2025-03-04 19:21:50 164

转载 聊一聊五种智能体模式

1 引言随着 AI 驱动型应用程序的快速发展,开发人员越来越多地利用大语言模型(LLM)构建智能体,以高效执行复杂任务。然而,最有效的实现并非依赖于复杂的框架,而是采用简单且可组合的设计模式。本文探讨了工作流与智能体之间的区别,明确了 AI 驱动系统中常见的关键模式。2 什么是 AI 智能体AI 智能体是利用 LLM 处理信息、与工具交互并执行任务的系统。它们可以分为两大类:工作流(Workflo...

2025-03-03 21:51:45 404

转载 心法利器[129] | deepseek-R1自测效果分析和选择建议

心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。2023年新的文章合集已经发布,获取方式看这里:又添十万字-CS的陋室2023年文章合集来袭,更有历史文章合集,欢迎下载。往期回顾心法利器[124] | 24年算法思考-大模型的应用与训练篇心法利器[125] | 24年算法思考-RAG技术论文和实践小结心法利器[126] | 24年算法思...

2025-03-02 22:31:34 91

转载 DeepSeek,连续开源王炸!

公众号关注“GitHubDaily”设为 “星标”,每天带你逛 GitHub!当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时,DeepSeek 却反其道而行,选择了全面开源,为整个 AI 生态注入新的活力。在过去短短一周内,DeepSeek 连续在 GitHub 开源了 8 个核心技术项目,完成了一次震撼业界的技术开源盛宴。与以往那些包装鲜艳的应用不同,DeepSeek 这次...

2025-03-01 17:12:13 103

转载 一文详解:DeepSeek 第五天开源的 3FS 文件系统

这个那个DeepSeek开源周的最后一天,迎来的是支撑其V3/R1模型全生命周期数据访问需求的核心基础设施 —Fire-Flyer File System(3FS)和构建于其上的Smallpond数据处理框架。???? 3FShttps://github.com/deepseek-ai/3FS3FS是一种充分利用现代SSD和RDMA网络全带宽的并行文件系统,在180节点集群上实现了6.6 TiB/...

2025-02-28 09:45:40 504

转载 DeepSeek开源周第四天,昨天预测成真

今天是DeepSeek开源周第四天,开源了两个项目,DualPipe,以及EPLB。另外还有一篇分析报告。昨天对第三个开源项目的DeepGEMM分析回答中,预测了今天的开源会是DualPipe,没想到真的说中了!DeepSeek开源周第三天祭出模型训练杀手锏DualPipe之前我在DeepSeek V3/R1的介绍文章中,以及基于论文内容,讲了流水线训练的过去以及DualPipe的大致优化点。有兴...

2025-02-27 13:05:33 140 1

转载 DeepSeek开源第三天,只用300行代码就超越了英伟达自己。

不能再肝了,但我又觉得DeepSeek值得。。。这两天,DeepSeek的高强度开源波,一山更比一山高。先是给GPU安超频加速外挂的FlashMLA,又是叫英伟达知道“原来GPU没有商业护城河”的DeepEP。我也都第一时间给大家带来了报道。在追求效率、把硬件资源干下来的路上,DeepSeek快成AI性能效率上的Godfather了。。。这回,他们开源的是一个叫做DeepGEMM的玩意儿,专门给当...

2025-02-26 10:55:57 70

转载 DeepSeek 开源周第二天:DeepEP 亮相,MoE 模型效率革命来袭!

今天是 DeepSeek 开源周的第二天,一个全新的开源项目 DeepEP 重磅亮相!这是专为 MoE(专家混合模型)设计的通信神器,直接让模型训练和推理效率起飞!准备好了吗?跟我一起探索这个 AI 新星吧!引言:开源周的狂欢,DeepEP 闪亮登场!就在昨天,DeepSeek 拉开了“开源周”的序幕,每天一个开源项目,简直是 AI 爱好者的狂欢节!今天的主角是 DeepEP,一个专为 MoE(M...

2025-02-25 23:02:25 107

转载 陈巍:DeekSeek最新开源FlashMLA 技术深入分析

本文将浅入深出的分析DeepSeek新开源的FlashMLA原理、架构,解读FlashMLA的贡献。2月24日,DeepSeek启动“开源周”,首个开源的代码库为FlashMLA。DeepSeek这种挤牙膏式的宣推手段也是很有意思,看来梁文锋团队不仅仅是技术派,也擅长玩技术流量IP。1 FlashMLA简介 FlashMLA是由 depseek-ai (深度求索)开发的一个开源项目,针对Ho...

2025-02-24 21:17:15 461

原创 清华团队 DeepSeek 教程完全指南(全5册)— 从日常应用到职场进阶(附下载)...

昨天朋友让我写一写 DeepSeek 应用场景的文章,正好手上有清华大学新闻与传播学院出品的手册,全面讲解了各种应用场景和用于科研的高阶用法。朋友们可以根据手册的内容,举一反三,用于学习、工作、生活中,如虎添翼。第一册:《DeepSeek从入门到精通》第二册:《DeepSeek赋能职场》第三册:《普通人如何抓住DeepSeek红利》第四册:《DeepSeek+DeepResearch:让科研像聊天...

2025-02-23 15:59:38 677

转载 开源中文DeepSeek-R1(满血)蒸馏数据集-110K

大家好,我是刘聪NLP。话不多说,先放数据下载链接。HF:https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110kMS:https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k该数据集为中文开源蒸馏满血...

2025-02-20 23:22:38 446

转载 DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队...

前言:抢先看!AGI-Eval 官方新鲜出炉的 DeepSeek能力评测报告首发!三大类型,多个新模型能力评测榜单直出。目录1. Deepseek新模型概览&整体结论2. 通用评测结果 2.1 内部评测结果 2.2 公开评测结果 2.3 DeepSeek-V3-Base 基座模型评测结果3. 推理专项评测结果 3.1 数学推理 3.2 代码推理 3.3 ...

2025-02-19 10:13:08 539

转载 太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI...

就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)!这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的进展!简单来说,论文的...

2025-02-18 19:39:28 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除