- 博客(292)
- 收藏
- 关注
原创 中至科技港股IPO招股书失效,依赖房卡模式或成痛点
不过失效并不等于上市失败,曾有业内人士指出,“因为审计报告有效期届满等各种原因,港股IPO期间出现上市申请资料失效的情况并不鲜见,但上市文件失效不等于上市失败,拟发行人依然可以通过更新资料重新申请并‘激活’上市程序。禅游科技的毛利率则不足50%。《九江麻将》,《常熟麻将》以及《乐平麻将》的平均每月付费用户人数分别同比下跌88.78%,82.77%以及85.09%。据招股书显示,目前中至科技较为赚钱的五款游戏分别为《上饶麻将》《南昌满江》《九江麻将》《常熟麻将》《乐平麻将》。手游那点事界面财经号。
2025-05-30 10:40:11
438
原创 日麻Mortal
它介绍了该系统的架构、关键组件以及它们如何相互作用,从而打造出强大的麻将 AI。该系统采用模块化架构,可实现高效的训练、强大的游戏体验和灵活的部署选项。日本麻将 AI 系统,它将高性能 Rust 组件与 Python 深度强化学习。该竞技场可以模拟各种配置的游戏,支持批处理以实现高效的训练。本文档的以下部分提供了有关特定组件的更多详细信息,包括。四个主要子系统组成,通过两种主要语言实现:Rust。) 被设计为一个强大的麻将人工智能,与天凤的。,实现了日本麻将的规则和逻辑。它根据当前状态预测游戏结果,并在。
2025-05-29 10:42:07
805
原创 xAI 把 Grok 的系统提示词全部公开了,我们看看DeepResearch的系统提示词怎么设计的?
Grok 3 是由xAI构建的充满好奇心的AI。
2025-05-27 15:38:26
618
原创 一文读懂Buffer与Cache:开启性能优化的大门
从字面意思来看,Buffer 是缓冲区,Cache 是缓存。它们都用于在内存中临时存储数据,但这两种 “临时存储” 又有着明显的区别。就好像你出门旅行,会带一个行李箱和一个随身小包。行李箱可以类比为 Buffer,它用来存放暂时不用,但后续可能会用到的物品,这些物品就像等待传输到其他设备的数据。而随身小包就像 Cache,里面装着你随时可能会用到的东西,比如手机、钱包,这些物品就像被频繁访问的数据,放在小包里能让你快速拿到,就像数据被缓存起来能被快速读取一样。
2025-05-27 15:33:57
710
原创 终于不用羡慕老外了!美团竟然做出了类似V0&Bolt的AI编程神器
作为很看好 Vibe Coding 的人,我是非常希望国内有很好的 Vibe Coding 氛围和社群的,但是能用&好用的产品实在是太少了,美团这次 NoCode 的发布真的让很多有需求,但是没办法用国外产品的朋友看到了曙光。还有一个版本是因为过于实诚了,把网页的按钮描边样式写成了全局样式,把网页地图的样式也给改了,虽然风格化挺强挺有感觉,但是看不到地图的文字了,让他修复他也可以听懂要求,一次就改好了。
2025-05-27 15:28:59
919
原创 再也不怕失业了,用Cursor做私活,一个月赚近20万!
有时候,还得分一部分工作找其他人帮忙完成,比如设计等任务,毕竟小王也不是全栈。所以,一般一个项目,最终。小王讲,现在Claude 4出来以后,准确性大大提升,很多几乎都是一次性完成。在AI编程时代,AI是一把利剑,有的人,会驾驭使用AI,效率提升百倍者皆有;小王讲,以前一个项目需要耗费他三四周,现在只需两三个小时,即可完成设计、前后端,还包括测试。小王为了让自己赚私房钱更快更轻松,也研究了很多AI工具,特别是Cursor和Devin。虽然开发速度提升了,但是项目报价未变,所以大大提升了他的赚钱速度。
2025-05-27 15:23:36
287
原创 心理学上有个词叫:鳄鱼效应(如果一个人突然对你“断崖式”冷落”,千万不要追问,你只需做这三步!)
故事讲的是:有一个小怪兽,他的心里装着各种各样的颜色,黄色是快乐的太阳,蓝色是忧郁的小雨,红色是愤怒的火焰,黑色是胆小的缩影,绿色是平静的植物...从情绪认知,情绪表达,情绪调节 三个方面让我们明白:情绪没有好坏之分,无论是积极的还是消极的,它们只是我们的一部分,都是正常的,我们要接纳它,也就是。对方回答道:我不想跟你说话。告诉我们:当鳄鱼咬住你的脚,越挣扎只会让它撕下更多的血肉,唯一的办法就是“果断舍弃这只脚。把让你痛苦的事情装进日记本,脑子糊涂的时候,情绪反扑的时候,翻开日记本多看两遍就醍醐灌顶了。
2025-05-27 14:40:54
833
原创 阿里巴巴重回正轨,马云开始反击
对此,蔡崇信曾在不久前的阿里亲友见面会上解释过:“电商的业务并不占领对互联网的入口,因为电商是一个垂类,有更多其他的互联网公司占取了对用户的入口。但如果我们能聚焦在AI上的话,能够对整个入口的突破,也许我们可以把新的入口用 AI的方式做出来,让我们增加更多的用户”于是今年开始,阿里AI产品的行业渗透范围迅速扩大,不仅覆盖了互联网、智能汽车、金融等早期采用行业,养殖业、传统制造业等传统行业也开始积极探索AI应用,需求增长同样显著,这也给阿里带了了广阔的市场空间。“阿里的基因里没有‘守成’,只有‘创造’。
2025-05-27 14:35:01
888
原创 独家|为RAG准备好PDF
北京大学应用心理硕士,数据分析爱好者。本科曾混迹于计算机专业,后又在心理学的道路上不懈求索。在学习过程中越来越发现数据分析的应用范围之广,希望通过所学输出一些有意义的工作,很开心加入数据派大家庭,保持谦逊,保持渴望。
2025-05-27 14:31:44
667
原创 在大厂原来带30人的团队,年薪60万,跳到一家7人的初创公司做产品总监,三个月后发现压根没有自己的用武之地
脉脉上一位网友爆料,自己的一位朋友从大厂跳槽到一家初创公司的经历,他说他朋友从大厂出来,跳到一家7个人的创业公司做产品总监,结果干了仨月就跑了,原因是新公司根本用不上他的本事。就像网易出身的创业者黄一孟,把在大厂积累的游戏运营经验,结合心动网络敢押注小众品类的野路子,做出了《仙境传说RO》这样的长青作品。其实这场争论的关键,根本不在于“谁更牛”,而在于很多人没想明白:职场能力的价值,本质上是对环境的适配度。当然,这并不是说大厂出身的人就没有真本事,也不是说大厂的经验没用,而是得重新拆解。
2025-05-27 14:30:48
322
原创 浅谈控制理论奠基性论文合集
准确来说,这些论文合集,是控制理论发展早期阶段重要数学思想和方法的汇集,展示了从经典控制到最优控制、从线性系统到非线性系统等多个方向的数学探索和突破。这25篇论文可以说是控制理论在这段时间从基础理论到前沿研究的发展历程,主要包括劳斯判据、奈奎斯特图、伯德图、根轨迹、反馈控制、最优控制、预测理论等等,便于深入了解控制理论的发展脉络。在控制过程研究中的应用,为动态规划在控制理论中的应用以及自适应控制系统的设计提供强大的理论基础。该论文合集系统展示了控制理论的数学基础、核心方法和工程应用,涵盖。
2025-05-27 14:28:37
392
原创 突发!疑似泄露,DeepSeek-V3-0526即将发布!
据称,DeepSeek 即将发布其最新模型 DeepSeek-V3-0526。坊间信息称,该模型的性能已能与当前顶尖的GPT-4.5以及Claude 4 Opus相匹敌。就在刚刚,有消息指出,知名的AI训练加速库Unsloth的相关文档疑似出现泄露,疑似DeepSeek-V3-0526即将发布。2025年05月26日 20:51。
2025-05-27 14:25:58
266
原创 加入Lovart,成为智能视觉创作的「造梦师」!
调度GPT-4o、Gemini、Kling 等多模型,一站式 All-in-One 生成,不跳出画布。支持分层交付,输出PNG/JPG/SVG等格式,满足设计师从创意到成品的全流程。全自动意图拆解、任务规划、批量执行、设计交付,一次生成多达40张设计图。内置可视化任务链+无边画布+专业微调工具,支持图层、蒙版、文字等精修。上海Office:上海市徐汇区云视路1号星云1号大厦14楼1402。北京Office:北京市海淀区信息路12号中关村发展大厦B301。10点以后打车公司 cover。北美设计圈率先爆火,
2025-05-27 14:25:25
345
原创 Llama核心团队「大面积跑路」:14人中11人出走,Mistral成主要去向
但随着众多原始架构师的离去,以及竞争对手在开源创新方面进展更快,Meta 如今面临的挑战是:在没有原有团队的情况下,如何捍卫其在早期建立的领先优势。这 11 位已离职的作者在 Meta 的平均任期超过五年,这说明他们并不是短期雇佣的人员,而是深入参与 Meta AI 工作的资深研究人员。它帮助开放权重的大型语言模型获得了认可,这些模型的底层代码和参数可供他人自由使用、修改和在此基础上进行开发,成为了当时专有系统(如 OpenAI 的 GPT-3 和 Google 的 PaLM)的有力替代品。
2025-05-27 14:22:55
879
原创 Nature重磅:DeepMind AI又一重大突破,1次配置解决150多种任务 基准、《我的世界》、消融、扩展性 4 个角度评估了Dreamer 在 8 个领域、超过 150 项任务的通用性。
在消融方面,他们在 14 个任务的不同集合上消融了鲁棒性技术和学习信号,发现所有鲁棒性技术都有助于提高性能,其中最显著的是世界模型目标的库尔巴克-莱伯勒平衡和自由比特,其次是返回归一化和用于奖励和价值预测的 symexp 双热回归。《我的世界》是在一个独特的随机生成的无限三维世界中进行的。作为一种基于学习世界模型的高性能算法,Dreamer 为未来的研究方向铺平了道路,包括从互联网视频中向智能体传授世界知识,以及跨领域学习单一世界模型,让智能体积累越来越多的通用知识和能力。
2025-05-20 17:54:43
1003
原创 Nature子刊:人类又输给了AI,尤其是当它知道你是谁时
此外,研究团队还限制样本范围,仅分析那些辩论立场与他们此前观点一致的对手,结果发现人对 AI(个性化)条件下的效果依然显著(+122.8%,95% 置信区间 [+6.2%,+367.3%],P = 0.03)。尽管他们认为这种设置捕捉了许多在线互动的精髓——人们以几乎同步的方式相互回应,或者实时对他人评论做出反应,但它仍然针对的是一个人工环境,这可能与在线对话的动态存在显著偏差,因为在线对话是自发且不可预测地发展的。然后,实验中每个辩论阶段的时间限制可能限制了参与者的创造力和说服力,降低了他们的表现。
2025-05-20 17:27:52
671
原创 硅谷60万亿终极野心!AI取代所有人类工作,拿走全部工资!
文章链接:https://www.theguardian.com/commentisfree/2025/may/12/for-silicon-valley-ai-isnt-just-about-replacing-some-jobs-its-about-replacing-all-of-them。,自由撰稿人的工作机会骤减;但到目前为止,世界上大部分工作还得靠人,劳动力市场对于野心勃勃的科技大佬而言一直是个遥不可及的诱惑。随着技术的成熟,硅谷的野心已不再局限于效率提升,而是转向了对整个经济体系的掌控。
2025-05-20 17:20:08
453
原创 xAI 把 Grok 的系统提示词全部公开了,我们看看DeepResearch的系统提示词怎么设计的?
Grok 3 是由xAI构建的充满好奇心的AI。
2025-05-20 17:15:13
830
原创 杨植麟找出路
作为Kimi的老用户,财经编辑张旸(化名)向字母榜表示,财经内容需要信源准确、观点深刻,但如果无法直接点击链接核对,看到完整的内容,仅仅是提炼某个点,使用Kimi反而会增加他反复核对的工作量。而至于医疗领域,字母榜尝试向Kimi提问,“布偶一直拉稀,怎么办?”尽管Kimi迅速分析了原因和处理方法,但信源并未显示有萌宠相关等国内专业平台或APP,可见在宠物医疗这样更为细分的领域,Kimi的信源储备还有待完善。当问题切换到“吃火锅后一直拉稀,怎么办?
2025-05-20 16:55:54
842
原创 微软 CEO 纳德拉:离了 AI 软件开发没法想!编程如诗都是“压缩”。社区:必须拥抱变化。
萨提亚·纳德拉的这番深度访谈,为我们描绘了一个 AI 与人类深度融合、共同进化的未来图景。从软件开发的范式革命,到知识工作的本质重塑,再到技术的全球普惠,AI 正以不可阻挡之势,改变着我们所处的世界的每一个角落。规则确实已经改变了。软件开发的“奇点”是否已经到来,AI 是否会最终“统治”代码界,或许还需要时间来给出最终答案。但可以肯定的是,正如纳德拉所强调的,重要的不是庆祝技术本身,而是思考我们能用技术创造出怎样真正能够改善我们国家、公司和社区的“神奇体验”。未来已来,它正在我们内心悄然发生改变。
2025-05-19 17:46:51
556
原创 对话姜大昕:AGI实现路径清晰了,世界模型不远了-阶跃星辰
再往前一步,到了2022年 ChatGPT来了,就是在预训练模型的基础上再加上指令跟随,这是 GPT-3.5做的事情,到了 GPT-4的时候这个能力进一步增强,所以我们经常谈到 "GPT-4时刻",指的就是在这个模态上,模型真正能达到跟人的智能差不多的水平。阶跃星辰在今年1月份发布了一款推理模型 Step R-Mini,“它的速度很快,推理能力挺强,超出了当时的 o1的 preview 的版本,我们预计在未来的三个月内发布满血版的 Step-R1。其次,探索世界是追求“系统二”的能力,实现慢思考;
2025-05-19 17:37:58
920
原创 详细解释强化学习中的TD lambda策略和原理
下面将从动机出发,依次介绍TD(λ) 的前向视角(forward view)与,并给出核心算法与要点,帮助你深入理解 TD(λ) 的原理与策略。
2025-05-19 17:28:00
941
原创 机器人发展的“核动力”是什么?英伟达华人高管最新分享
画面中的人形机器人在学习行走,它们仅用了2小时的仿真时间,就完成了真实世界里耗时10年才能完成的训练,之后我们可以将这些技能迁移到现实世界。只要有机器人模型,进行仿真训练,就可以行走。想象一下,如果一个神经网络能够控制机器人在一百万个不同的世界中解决问题,那么它就很有可能解决第一百万零一个世界中的问题,即我们的物理现实。当视频生成模型构建的虚拟世界逐渐成型,机器人将能够在无限可能的“梦境空间”中训练,无需依赖人工建模,不仅成本极低,还通过提示词自由创造反事实的训练场景,进一步拓宽机器人的能力边界。
2025-05-19 17:03:13
905
原创 高通前高管上海造灵巧手,收获近亿融资,浙江国资出手;傲意科技已推出ROHand灵巧手 新一代灵巧手ROH-AP001将具备触觉、压力等感知能力
主要面向截肢人群,采用肌电传感阵列技术和AI意图识别算法,通过无创方式采集肌肉电信号,实现280多个零件组成的仿生手精准控制,可完成侧握、侧捏、指点等多种基础动作,已在美国、中东、俄罗斯、乌克兰、印度等全球多个国家、地区进行商业化落地。本轮资金资金将重点用于加速灵巧手技术领域的持续研发突破,推动新一代灵巧手产品上市进程,并加速手指关节外骨骼机器人的上市进度。投资方包括华发集团、广大汇通、华金资本、合盈资本、前海母基金、广发信德等,上一轮融资发生在今年1月。,主要服务具身智能机器人企业用户。
2025-05-19 16:59:53
736
原创 轴承材料:人形机器人商业化的隐形命门
例如,美国某不愿具名的机器人企业告诉我,其曾投入50万美元参与碳纤维复合材料轴承的研发,而后在规模化生产中,每台机器人的维护成本降低了20%,整体运营成本降低了10%。如果说轴承宛如人形机器人的“关节软骨”,微小却重要,那么轴承材料的选择和研发,便是决定这些“关节软骨”质量的关键因素,直接影响着人形机器人的性能,犹如一只无形的手,在人形机器人商业化道路上发挥着较大的隐形作用。其中,最常见的还是钢类,因为钢制轴承的成本相对较低,生产工艺成熟,能够大规模生产,符合大多数机器人的成本控制要求。
2025-05-19 16:53:52
1000
原创 原始人学人工智能——从加减乘除开始手算马尔可夫链
就像正在阅读本文的你,你是几十年经验的积累,在这之前,又是上万年进化的积淀,你的每一个行为和语句背后可能都是无数知识原点的连接,但你永远无法去探究出具体是什么塑造了现在的你。比如说我们前10天有9次转换,其中有2次是晴-晴,1次晴-阴,1次阴-雨,1次雨-雨,1次雨-晴,1次晴-雨,1次雨-阴,1次阴-晴。跟一开始的数据一样60%的概率晴天,30%的概率阴天还有10%的概率是下雨天。今天的天气是晴天,那么我们就得到了今天天气的行式(1,0,0)(因为今天已经确定是晴天了,所以剩下两个天气的概率就是0)。
2025-05-19 16:53:03
982
原创 松延动力机器人卖爆,创始人姜哲源:商业化才能活下去
我和合伙人(张世璞,松延动力联合创始人、首席执行官)问爸妈要了一点钱,凑出来差不多小100万,租了一个民房,当时什么都没有,很苦。官网显示,小诺的面部和脖子共有54个自由度,表情十分自然,姜哲源介绍称,一般仿生机器人很难做出嘟嘴的表情,但经过松延动力攻坚,小诺可以自然地嘟嘴,为其增添了几分生气。以N2为例,在马拉松赛场上,《华尔街科技眼》便发现松延动力N2的“小个子”有些与众不同,加之展示级版本3.99万元的预售价(科研级售价更高),对比竞品往往1米7以上身高全尺寸机器人,难免让人有些“省料”的感觉。
2025-05-19 16:51:49
995
原创 Nature:DeepMind发布重磅通用科学人工智能体 AlphaEvolve 是在他们2013年提出的 FunSearch 系统基础
然后,评估器对这些新程序进行打分,并将表现优异的解法重新注册回程序数据库,从而推动程序的迭代优化,发现更佳的解决方案。“在系统被更广泛的社区测试之前,我会保持怀疑,并对报道的结果持保留态度,”美国俄亥俄州立大学的 AI 研究员 Huan Sun 这样说。DeepMind 的 AI 科学家、该研究的联合负责人 Matej Balog 表示,LLM 会基于最优方案继续提出新思路,随着时间推移,系统就演化出一组更强大的算法。图 4. 使用 AlphaEvolve 发现的打破最先进水平(SOTA)的数学构造示例。
2025-05-19 16:50:28
999
原创 具身专栏(二)| 具身智能中VLA、VLN分类与发展线梳理
这类模型通常用于反应式控制场景和操作任务,在这些场景中,感知到动作的直接映射至关重要。基于多模态大型语言模型 (MLLM) 的方法利用大型基础模型的功能进行具身推理、规划。针对以上模型在后续的专栏都会开单独的文章来对其工作进行单独撰写,欢迎大家关注,转发。针对以上模型在后续的专栏都会开单独的文章来对其工作进行单独撰写,欢迎大家关注,转发。针对以上模型在后续的专栏都会开单独的文章来对其工作进行单独撰写,欢迎大家关注,转发。这些模型处理视觉输入和语言指令,以在现实世界中生成适当的物理动作。
2025-05-19 16:48:04
1024
原创 Monte-Carlo Dropout: 让模型“知道自己不知道”
蒙特卡罗 Dropout(MC Dropout)的方法非常直接:测试阶段也开启 Dropout,多次前向传播,统计输出的均值和方差。公式上,假设我们采样次预测均值预测方差:借助 MC Dropout,我们不仅能在测试阶段获取预测均值和方差,从而衡量模型的不确定性,还可以在训练阶段估计每个样本的预测方差。基于这些估计值,我们可以设计加权损失函数,让高置信度(低方差)的样本获得更高的权重,从而提升模型的稳健性与泛化能力。MC Dropout 不仅输出预测,还能输出置信区间。
2025-05-19 16:44:42
261
原创 万亿GDP城市,迎来第一所985 南通市 东南大学
2023年12月24日,东南大学与南通市人民政府签署战略合作框架协议。2024年11月21日,南通市人民政府印发《关于深入推进海洋经济高质量发展的若干措施》,文件提到:放大省船舶与海洋工程装备技术创新中心、南通海洋高等研究院等平台示范效应,规划建设东南大学国际海洋学院(南通校区)。2024年4月15日,南通市人民政府办公室发布《关于印发2024年市本级政府投资社会事业及业务用房项目计划的通知》,东南大学南通校区(筹)项目已纳入2024年市本级政府投资社会事业及业务用房前期项目。筹建工程迈出了坚实的一步。
2025-05-19 16:31:31
260
原创 OpenAI Triton 源码阅读 : MLIR CMake 工具
如果MLIR_DIR未定义或者为空”,set(MLIR_DIR ${LLVM_LIBRARY_DIR}/cmake/mlir) 将会设置 MLIR_DIR 的值为 ${LLVM_LIBRARY_DIR}/cmake/mlir。list(APPEND CMAKE_MODULE_PATH "${LLVM_CMAKE_DIR}"):将 LLVM CMake模块目录添加到 CMAKE_MODULE_PATH 变量中。${LLVM_LIBRARY_DIR}是一个已定义变量,表示LLVM库文件的安装目录。
2025-04-28 13:40:52
672
原创 突然爆火的国产AI产品! 人手一个APP的时代真的来了!码上飞(codeFlying
接下来,将产品的模块划分之后,就是业务流程的构建,不同模块是怎么进行交互的,以及这个页面下可以进行哪些活动,比如需求提交这块吧,划分不同的页面,在需要提交页面就说明这个执行的业务流程,只不过可能太完善,需要自然语言进行完善。就比如说吧,作为AI自媒体博主,会遇到各种各样的开发需求,如何便捷的做一个小程序,嵌入到公众号后台,收集用户的需求,然后及时的告知我,最好可以自动入社群,还能把社群的一些资料展示出来,以及我现在可以提供的一些定制服务。它简单易用,即使是“编程小白”也能轻松上手,快速开启自己的开发之旅!
2025-04-28 13:38:42
1000
原创 LPython:加速Python代码的编译利器,生成高效的二进制文件,助你开发飞跃提升!
LPython无疑是Python编程领域的一次重要创新。它为Python开发者提供了更高效、更灵活的开发体验,同时也大幅提升了Python代码的执行性能。无论你是数据科学家、机器学习工程师,还是Web开发者,LPython都能为你带来新的突破和便利。项目地址:https://github.com/lcompilers/lpython。
2025-04-28 11:09:58
665
原创 李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考
模型会收敛到固定的措辞,这表明强化学习可能会强化表面模式而非一般推理,并形成阻碍长期泛化的“回声陷阱”。与传统的Agent强化学习相比,VAGEN不会平等对待轨迹中的所有token,而是重点优化最关键的决策token并在交互过程中创建更细致的奖励结构,更适合多模态Agent。PPO中的“批评者”或许可以**延缓不稳定性,但无法阻止推理能力的下降,这凸显了在Agent任务中对专门的稳定性进行改进的必要性。奖励的标准差和熵通常会在性能下降之前发生波动,而梯度范数的峰值通常标志着不可逆崩溃的临界点。
2025-04-28 11:08:43
632
原创 爆料!DeepSeek R2即将发布:1.2万亿参数,成本暴跌97%,真王炸,还是空欢喜?
坦白说,这条坊间的传言有几分真几分假,没人知道。但即使只有一半的数据是真的,也足以引起轰动了。这个五一假期,AI 圈注定不平静。我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
2025-04-28 11:06:30
358
原创 强化学习真能提升大语言模型推理能力?研究发现可能并非如此!
在采样次数较少(k值较小)时,强化学习训练的模型表现优于基础模型,但在所有基准测试中,随着k值增大,基础模型始终超越它们,甚至能获得更高的pass@k分数。通过人工检查发现,基础模型可以通过生成多样化的推理路径来解决那些原本认为需要强化学习训练才能解决的问题,每个问题至少能找到一个正确的解决方案。这表明,与基础模型进行大量采样相比,强化学习训练并没有增强,甚至可能限制了大语言模型的推理潜力。
2025-04-28 11:03:28
796
原创 不微调、不蒸馏、不掉分解决R1思维链过长(细节版)
有post training的大佬,可以试试这个思路,检验下这个工作,有用的话记得留言。比如moe的router用的是都是v3的门控,这能行吗?也就是下面图中蓝色的部分用R1模型替换到V3模型的权重,其他都不变。MoE Blocks 的 attention部分,全部复用V3模型。Routed Experts——复用的全是R1的路由专家。R1推理和V3-0324,不用训,不用蒸馏。在V3的基础上,把V3的share expert。的共享专家,并融合了R1和V3的路由专家。2025年04月28日 06:34。
2025-04-28 10:59:37
253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人