- 博客(3753)
- 资源 (7)
- 收藏
- 关注

原创 北大麻将源码 /mahjong-rl/model_pool.py 用 FIFO 策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。
服务端 (:管理模型的存储和共享内存的分配。客户端 (:通过共享内存获取模型的元信息或加载模型参数。模型池采用FIFO策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。
2024-12-31 23:37:37
1053

原创 RICAI -A Review of Mahjong AI Research 论文 麻将AI论文
由Mizukami N(2015)提出,使用逻辑回归构建对手预测模型,预测对手是否快赢、胜利牌和支付点数。该模型的基础是为后续研究奠定了基础,并且在防守方面表现良好。然而,该模型在攻击性方面存在不足,因为它没有考虑玩家得分对选择动作的影响。
2024-12-30 14:43:15
831

原创 我叫曾小健,开发第一线:新Windows与开发环境:大模型LLM/量化 Win-Mac统一快捷键体验
对于开发者用Windows来说,最大的建议就是不要用Windows,既然必须要用,那就来吧!!!
2023-07-24 10:45:24
330

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中 包括NVIDIA状态,和安装相关常用软件包,没事就背背 - 背诵创造美好生活
Ubuntu AI大模型开发常用命令 - 更新中 包括NVIDIA状态,NVIDIA状态,实时更新:和安装相关常用软件包没事就背背,增加开发效率。
2023-06-21 11:28:05
564
原创 CoT和ToT是什么,有什么区别和优劣
CoT(链式思维)定义:CoT是一种通过显式生成中间推理步骤(如数学推导、逻辑分析)来引导语言模型完成复杂任务的提示技术。其核心是“分步思考”,例如在回答数学问题时,模型会先写出公式、再代入数值、最后计算结果。实现方式:通常通过添加提示语(如“Let's think step-by-step”)或提供少量分步演示(few-shot prompting)激活模型的推理能力。理论支持。
2025-03-19 15:28:59
614
原创 过程奖励模型(PRM)之外,主要的奖励模型类型及相关变体包括:
奖励模型的发展趋势是从粗粒度(ORM)向细粒度(PRM、标记级)演进,同时结合隐式学习(Implicit PRM)、多模态整合(Hybrid PRM)和正则化技术(ER-PRM)以提升效果。未来方向包括自动化标注、跨领域泛化及安全性与性能的平衡。
2025-03-19 15:26:34
208
原创 大模型中的 Reward Model:ORM、PRM、PPO、DPO对于一般分类、
DPO(Direct Preference Optimization)模仿了 PPO 的方式,同样训练 Reward Model,大模型生成多个结果后,使用 Reward Model 判断优劣,然后好的作为训练集,以SFT 的方式训练。,大模型生成多个结果后,经过 Reward Model 判断,通过强化学习的方式来使得大模型偏向更好的答案,远离更差的答案。),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。,更重要的是,判别结果可以某种。
2025-03-19 15:25:25
72
原创 Manus和openai都在GAIA上瞎搞....
现在比较好的leaderboard都是采用类似Kaggle 比赛的形式,可以交模型、代码、api,测试集数据不可见,所以结果可信度很高。先回顾下,GAIA是一个评测agent能力的榜单,比如给你一个excel表,让你统计一下三年二班的总分最高分的同学对应的数学分。事情的起因是我发现Manus和openai的Deep Reasearch都报告了在GAIA上有很高的分,我翻来翻去也没找到。大家都老老实实在test上提交吧。但问题就出在GAIA这个,验证集的数据是可以直接下发在本地的,相当于人手一个题目和答案。
2025-03-19 15:16:51
105
原创 复旦、同济等联合提出基于深度强化学习的社区布局生成方法
我们为该任务定义状态、动作空间和奖励函数,提出了一种基于多智能体强化学习的解法,以及一套用于评估社区建筑布局的指标,在现实世界场景中的实验结果表明该方法的有效性。此外,我们还提出了计算这些因素的定量方法。社区建筑布局任务定义为:给定一个地块边界和需要放置的建筑列表,包括各类型建筑的尺寸和需放置的数量,以及建筑的最小横纵间距,期望输出所有放置建筑的中心点坐标。与地块的相交边数,r_align 为建筑坐标重合的占比,r_even 为建筑距离的标准差,r_center 为所有建筑的平均中心与地块中心的重合程度。
2025-03-19 14:11:25
361
原创 英伟达四代旗舰GPU全揭露!算力猛兽暴涨900倍,黄仁勋现场连开五炮,刷新DeepSeek世界纪录
作为AI行业风向标,英伟达GTC 2025大会将举办超过1000场会议、汇聚2000名演讲嘉宾和近400家参展商,涵盖大语言模型、物理AI、云计算、科学发现、气候研究、医疗健康、网络安全、人形机器人、自动驾驶等主题,并将举办首届量子日,将汇集全球量子计算界和业内重要人物,与黄仁勋共同探讨量子计算的现状和未来。现场参会者能体验各种精心策划的活动,包括数十场覆盖各个行业的演示、实战培训、自动驾驶汽车展览和试驾,还有集结20家当地供应商和手艺人制作的小吃和商品的GTC夜市,盲猜一波酷爱逛夜市的黄仁勋会惊喜现身。
2025-03-19 13:55:05
503
原创 专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍
如果将 4 组 Vera Rubin NVLink144 组成的 Vera Rubin NVLink576 来构建 NVIDIA Rubin System,则这将是配备 576 个 Rubin GPU 的性能怪兽,能实现 15 EF 的 FP4 性能,同时内存也将达到惊人的 150 TB。「因为 AI 技术爆发,GTC 大会的规模每年都在扩大,以前人们说 GTC 是 AI 的伍德斯托克音乐节,今年我们搬进了体育场,我觉得 GTC 已经成了 AI 的超级碗,」英伟达 CEO 黄仁勋说道。
2025-03-19 10:15:32
553
原创 谷歌把Gemini引入物理世界,让机器人真正拥有了大脑
例如,当物体从它的抓取中滑落,或者有人移动了某个物品时,Gemini Robotics 能快速重新规划并继续执行任务。Gemini Robotics 本质上是一个先进的视觉-语言-动作模型,基于 Gemini 2.0 构建,但增加了物理动作作为新的输出模态,用于直接控制机器人。Gemini Robotics-ER 可以与这些特定于各种机器人的“低层次”安全关键控制器接口连接,在 Gemini 核心安全功能的基础上,使模型能够理解在特定环境中某个潜在动作是否安全,并生成适当的响应。,机器人仍能顺利完成任务。
2025-03-19 10:13:11
677
原创 谷歌团队再次证明Scaling Law的准确性,即使总通信量减少99%,仍能超越数据并行训练
研究人员发现,M=1 的 DiLoCo 在所有模型尺度上都能实现较低的评估损失,并且能对更大的 batch 产生更好的鲁棒性,从而能够大大减少 wall-clock 训练时间。Scaling Law 揭示了模型性能与。总的来说,本次结果表明与数据并行方法一样,DiLoCo 可以随着模型大小的变化实现可预测的扩展,这使得在极大的尺度上调整超参数和训练模型变得更加简单。与此同时,研究人员的结果表明,DiLoCo 和数据并行训练这两种方法通常都是有效的,尽管没有明确的赢家,但是 M 之间的残差存在显著差异。
2025-03-19 10:06:46
689
原创 “愚蠢”的具身机器人,进厂拧螺丝至少还要十年
2025年2月,他在轩辕同学的课堂上表示,机器人是超强度融合的硬件,汽车是非常大规模的硬件数量,但硬件和硬件之间是一个低强度的耦合,比较容易定好边界,但是机器人就不一样了。陈啸并不认同这个路线,他表示,拿一个螺丝,把螺丝安放在合适的位置,再举起拧螺丝的电钻,在对等位置往螺丝孔去按下去,且掌握好几个力度,这对机器的要求不高,但是对人形机器人的要求极高。有一个说法,大年三十,穿着大花袄,拿着红手绢,机器人在春晚上的倾情演出,让人类笑开了花,但是,“机器人统治世界之后,第一件事就是把这个视频删除了”
2025-03-19 09:59:45
427
原创 剑桥大学 | PhantomWiki:用于推理和检索评估的按需数据集
本研究的动机在于创建一个可扩展且抗数据泄露的框架,以便对LLMs的推理、检索和工具使用能力进行更准确和细致的评估,从而推动自然语言处理领域的发展。框架,其中包含几种生成按需数据集的方法,以评估大型语言模型(LLMs)的推理和检索能力。许多当前的评估方法在面对任务复杂性和文档语料库规模的增加时难以扩展,限制了它们在现实场景中的适用性。实施多种提示技术(上下文内、检索增强生成(RAG)和代理提示)以评估LLMs在生成数据集上的表现。在Prolog中表示生成的宇宙,以推导生成问题的正确答案,确保可验证的正确性。
2025-03-19 06:17:56
557
原创 深度解读大规模深度强化学习的算法优化:Policy Gradient、PPO及PPG
原文:https://zhuanlan.zhihu.com/p/342150033。
2025-03-19 05:18:26
634
原创 机器人工程师学习计划
YY硕很多朋友私信问我对机器人和人工智能感兴趣,该怎么展开学习。最近稍微有点空,我写写我的看法。两年前,我在知乎回答如何定义「机器人」? - YY硕的回答中试图给机器人做出一个比较仔细的定义,我觉得机器人和人工智能最大的区别在于是否要和物理世界进行交互。今年初在另一篇知乎回答里对机器人或人工智能的研究会帮助我们更好的了解人类自己吗? - YY硕的回答我说到传感器是和物理世界交互的基础。后来,我又在知乎回答有哪些与控制、机器人等相关的 quotes? - YY硕的回答中提到莫拉维克悖论(Moravec's
2025-03-19 05:06:00
600
原创 最佳睡眠时长竟不是8小时!复旦大学:短睡眠是疾病的“因”,长睡眠是疾病的“果”,睡眠<7小时心脏风险激增!>8小时死亡风险飙升!
进一步的孟德尔随机化分支持了这一点,短睡眠更可能是疾病潜在的“因”,而长睡眠更多作为疾病的“果”。这也能解释,为什么睡太多的人常常觉得白天还是累、步伐变慢,甚至体脂率更高——或许,他们的身体代谢已经在悄悄变慢了。睡眠这件事,向来是“因人而异”,但我们可能没意识到——睡太少和睡太多,或许都暗藏健康风险。简单来说,短睡让免疫系统进入“加班模式”,更容易出现慢性炎症,甚至免疫力下降,生病的几率也随之上升。也就是说,如果睡眠时间偏短,可能会让人更容易陷入这些健康困境,而这种影响很可能是由基因决定的。
2025-03-19 05:03:33
671
原创 心理学上有一个词叫:鲁莽定律 (能帮你解决人生中85%的问题)
鲁莽定律(The Law of Recklessness)是心理学中的一个概念,指的是当你感到犹豫不决时,应该立即行动,而不是过度思考。它的核心在于:行动本身比追求完美更重要,因为行动能带来新的信息和机会,而犹豫只会让你停滞不前。2。
2025-03-18 16:00:24
141
原创 Skywork R1V全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开 视觉推理
38B硬刚DeepSeek-R1。
2025-03-18 15:49:38
470
原创 强化学习与大模型后训练:DeepSeek R1 如何获得推理能力?
MoPaaS魔泊云官方账号2025-02-06 17:30发布于上海MoPaaS魔泊云官方账号AI划重点 · 全文约15764字,阅读需45分钟目录引言提升 LLM 推理与对齐能力的后训练数据准备与生成强化学习(RL)与推理型 LLM 后训练基于 RL 的后训练(I): DeepSeek R1 系列模型案例基于 RL 的后训练(II): OpenAI o-系列模型案例RL 规模法则与 LLM 推理能力的涌现讨论与结论参考文献1. 引言中国人工智能(AI)初创公司DeepSeek 的崛起,标志着 AI 产业向
2025-03-18 15:46:01
229
原创 揭秘 R1-Onevision:从“看图识物”到“深度推理”的AI新星,开始多模态推理模型的第一步
结果:R1-Onevision相比Qwen2.5-VL、GPT-4V、GPT-4o等主流模型,在多模态推理基准测试中取得了更高的准确率,证明了它在视觉+语言双线并进时,能走得更远。而且,R1-Onevision的7B模型还在多个多模态推理挑战上超越了目前市面上热门的模型(如 GPT-4V、Qwen-VL 等),这让它一举成为多模态推理领域的焦点。- 为了让小型场景(如手机端或边缘设备)也能使用多模态推理,他们计划推出体量更小、更高效的3B模型,在资源受限的环境里同样能保持不错的推理水平。
2025-03-18 15:19:29
120
原创 谷歌 AI 新玩法:Gemini 移除水印引热议,真香还是真慌?
但这“实验”可一点不含糊,不仅能去水印,还能生成名人照片和版权角色,比如有人试着让它画了个皮卡丘,结果毫无压力就搞定了。上传一张带水印的图,Gemini 不仅能把水印抹得一干二净,还会聪明地填补被水印盖住的部分,像没事儿发生过一样。相比之下,Anthropic 的 Claude 和 OpenAI 的 GPT-4o 碰到去水印的要求直接摆手,理由是“这是不道德且可能违法的”。虽然 Gemini 也不是完美的“水印杀手”——碰到大片水印或者透明度高的,它偶尔会翻车——但这能力已经够让版权方头疼了。
2025-03-18 15:12:23
105
原创 多模态,杀疯了!多模态融合。方向
想发论文的同学们赶快。cross-attention特征融合。同质多模态特征融合和交互的三维物体检测。下载资料合集,找到你的顶会idea!MMSR-自适应顺序融合模态特征。跨领域多任务学习的多模态对齐提示。大规模神经元追踪的多模态体积特征。视听融合中多任务学习的集成框架。多模态融合TransFuser。场景图知识增强多模态结构化表示。自主检测和定位预定义对象的框架。处理缺失模态的鲁棒多模态学习。基于变压器的3D对象检测模型。图像与点云融合的语义分割模型。改进的具有类名语义的原型网络。
2025-03-18 15:02:18
74
原创 AI抢攻人类奥赛金牌!DeepMind几何推理模型登上Nature!
过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。在这其中,语言模型擅长识别、预测流程的后续步骤,但缺乏数学推理所需的严谨性;
2025-03-18 09:56:26
123
原创 请详细解释AlphaGeometry2核心技术原理,从tokenization到推理步骤增强等等
perpAlphaGeometry2是DeepMind开发的第二代神经符号混合系统,在国际数学奥林匹克(IMO)几何问题上实现了突破性进展。
2025-03-18 09:54:08
481
原创 请详细说一说MathGPT的原理,以及你认为怎么进一步增强大模型的解数学题的能力?
几何推理大模型通过多模态输入(图像、文本、公式)和结构化表示(向量、图、逻辑规则),将几何图形转化为可处理的token序列。其核心挑战在于平衡计算效率与几何语义的精确性,未来可能通过3D视觉语言对齐、轻量化模型等方向进一步优化。分享研究追问相关事件事件名称事件时间事件概述MathGPT的推出2023-05-08技术创新学而思计划推出名为MathGPT的数学大模型,旨在解决现有大语言模型在数学问题解决、讲解和问答方面的不足。MathGPT的应用前景不明确。
2025-03-18 09:49:09
313
原创 面试:怎么增强大模型的推理能力,比如说数学和逻辑?如果让你设计一个用来解中小学数学题的大模型,并且要求视觉问答,拍照答题大模型,你会怎么做
通过上述方法,可构建一个支持拍照输入、分步推理、多轮交互的中小学数学解题大模型,同时在数学逻辑和视觉问答场景中达到高准确率。:生成或标注包含详细解题过程的中小学数学题数据。要提升大模型的数学和逻辑推理能力,并设计一个。数据构建、模型架构、训练方法、外部工具。的视觉问答(拍照答题)大模型,需从。MathGPT通过海量解题数据训练。应用题、几何题等类型,强调分步骤。:通过Few-Shot CoT。过程性数据(如几何题解题步骤。生成的多个候选推理路径。训练数据中的分步示例。九章随时问的交互设计。
2025-03-18 09:35:46
564
原创 [多模态面试]请问当前有哪些比较实用和知名的用于OCR的多模态大模型?同时支持版面分析的
开源场景可尝试InternVL1.51或Qwen系列。,推荐Mistral OCR或腾讯引擎;以上模型及工具可根据具体场景选择:若需。GPT-4V的开源多模态模型。olmOCR和MiniCPM。PDF输入,能精准解析文本。Markdown格式。
2025-03-18 09:30:20
200
原创 AI时代的“夸克”:从搜索到「AI超级框」的进化
说到AI搜索,不得不提360的纳米搜索,虽然老周一直在强推,但我个人并不看好,因为“搜索”这个动作是好奇心的开始,场景粘性较弱(搜完即走),如果没有丰富的延展功能,用户很容易流失。反观夸克却大有不同,夸克以搜索为入口,构建了丰富的搜后服务,涉及:网盘、阅读、AI工具、学习、工作、生活等方方面面的服务,这是一款优秀的产品,长期沉淀的商业场景,也是其坚挺的竞争壁垒。到了2025年初,夸克的品牌Slogan升级为“2亿人的AI全能助手”,这显示了其在AI领域的雄心壮志,也反映了市场对AI工具需求的持续增长。
2025-03-18 09:21:36
226
原创 deepseek v3 生成答案的速度为什么可以这么快?
DeepSeek-V3之所以能够迅速生成答案,主要归因于其采用了专门优化的MOE(Mixture of Experts)架构,综上,DeepSeek-V3通过整合MOE架构、的优化部署,成功实现了答案生成速度的大幅提升。InfiniBand和NVLink提供。,这直接促使DeepSeek-V3的。2025年03月17日 22:54。的高带宽资源,有效缩短了通信延迟。根据评估数据,对于第二个令牌的。预测接受率高达85%至90%原创 AIGC小白入门记。的方法,保障了在线服务既能。多令牌预测、高效的训练框架。
2025-03-18 09:17:54
100
原创 把github.com换成uithub.com,就能把github项目变成传给LLM代码库和项目结构
有用小技巧:把github.com换成uithub.com,就能把github项目变成可以传给LLM的代码库和项目结构。比如 github.com/camel-ai/owl -> uithub.com/camel-ai/owl。2025年03月15日 00:00。
2025-03-18 09:17:49
222
原创 0行代码打造3D游戏!氛围编程成网络热门,20小时作品获120万次观看。
原创 Aitrainee2025年03月16日 21:28湖南“氛围编程”,动嘴就能让 AI 写代码,最近火起来的概念。20 小时,500 个提示词,20 欧元,有人就用 AI做出了一个多人 3D 游戏,还 100% 没写代码S 全屏播放 full_screen_mv。
2025-03-17 22:45:02
486
原创 OpenAI 首席产品官:AI编程今年将彻底超越人类,网友:竞争编码≠真实项目!
原创 Aitrainee2025年03月17日 13:14湖南OpenAI 大佬又放话了:今年,AI 编程要彻底碾压人类,而且是永久性的。S 全屏播放 full_screen_mvKevin Weil 表示,AI 模型进步神速,明年就能在编程比赛里称王。这事儿能让更多人做出自己想要的东西。AI 在软件方面的超越是“普惠效应”,能让所有人创造任何想要的东西。访谈干货:2025 年底,AI 自动化写代码比例要到 99%!AI 进化靠两条腿:狂练预训练,猛抓推理能力。
2025-03-17 22:44:17
433
原创 RooCline 新增“牛马模式“!人工搬运提示词和回复,网友:我成了API,真人工 · 智能。
原创 Aitrainee2025年03月17日 21:27湖南离谱,开源社区脑洞大开,RooCode(以前叫RooCline)更新了个人工中继功能,可以不使用任何LLM API。用人作为搬运工,Roocode给每一轮提示词,你转给Web Bot(如),然后你再把结果复制回Roocode,以此循环,完成原来它自动调用LLM API的操作,你成了人肉API。。网友表示,虽然牛马,但是免费。。RooCline 新增"牛马模式"!
2025-03-17 22:22:42
602
原创 超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
结果发现,MRT 的表现始终优于结果奖励强化学习,在多个基准测试(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 亿参数规模的 SOTA 结果,其相较于基础模型的准确率提升是标准结果奖励 RL(GRPO)的约 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基础模型的 5 倍。另一方面,如果 LLM 仅专注于发现(discovery),那么探索就更可取,这样 LLM 就可以耗费几个片段来尝试不同的方法,并进行验证和修改,然后得出最终答案。
2025-03-17 17:17:22
848
原创 解锁 Manus - 探索 AI 智能体 Manus 背后的黑魔法
虽然 Manus 有这些不足和限制,但 Manus 让人们开始了解和认识智能体:它自己规划任务,选择工具,执行任务,过程中能够对于任务的结果对环境有感知,能够自己修复任务的执行。在任务执行过程中, 点击其中的一条命令,或者一个文件, 页面右侧会出来 Manus's Computer, 在 Manus Computer 的右侧下拉图标点击之后,会出来 VS Code, 点击这个 VS Code 进入到 VS Code 界面。要特别注意的是这些知识确认之后,在后面的任务中默认是开启的,会影响后面的任务执行。
2025-03-17 17:07:52
886
11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评
2024-10-22
10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类
2024-10-21
Multimodal Representation for Neural Code Search
2024-10-21
[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs
2024-10-21
avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip
2020-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人