- 博客(369)
- 资源 (7)
- 收藏
- 关注
原创 17K数据集就能教会大模型长链推理,结构才是关键 | 论文解读
然而,这篇论文带来了令人振奋的发现 - 仅需17,000个训练样本,就能显著提升模型的推理能力!更有趣的是,研究发现推理过程的结构比内容更重要。2.结构化思维的重要性:研究表明,培养AI的"结构化思维能力"比灌输具体知识更为关键,这一发现可能会影响未来AI训练方法的发展方向。3.实践价值:研究成果显示,即使使用较少的训练资源,也能在数学和编程等需要复杂推理的领域取得突破性进展。1.模型训练效率提升:不再需要海量数据就能训练出具有强大推理能力的模型,这大大降低了研究和应用门槛。
2025-02-19 02:04:16
746
原创 马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
研究者表示,我们花了24个月去打磨这个模型,确定它在逻辑推理上有了最新进展,同时他们使用了一个废弃工厂,数据中心之所以落地在孟菲斯,是因为既需要算力,又需要能源功能,需要1/4吉瓦来向GPU供能,同时还需要冷却设施。在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。接下来,我们现在正处于一个过渡窗口期。
2025-02-18 16:19:16
662
原创 Apple 重大突破!揭秘蒸馏缩放定律,开启模型优化新时代
团队将 Hoffmann 等人(2022)的分析扩展到蒸馏过程,提出了计算最优蒸馏的概念,即确定如何在给定计算预算 c 的情况下,训练出具有最低交叉熵的目标大小\(N_S\)的学生模型。此外,该研究还为模型训练提供了更优的资源分配策略,有助于开发更小、更强大且推理成本更低的模型,从而降低模型训练的碳足迹,推动测试时计算缩放的可行性。固定学生模型的参数和训练 token 数量,通过改变教师模型的参数和训练 token 数量(在计算约束下),来研究教师模型对学生模型交叉熵的独立影响。
2025-02-18 16:15:36
987
原创 Z Research|狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor
AI Coding的演进史,也是人类开发模式的演进史,从早期的“意图”-“编程”-“代码”-“功能实现”的闭环,向“意图”-“功能实现”的转变,这不仅仅是开发效率的提高,也为软件开发甚至人类打开了新的可能——每个人会说话的人都有可能亲手创造技术的未来。进入到下一页填写简历信息的页面,除了需求里阐述的名字、电话、邮箱、教育经历和工作经历,o1给出了Additional Details,这个文本框对应提示词中的“其他任何相关细节”,表现了o1对细节需求的处理,但是页面依旧比较老式。
2025-02-18 16:14:03
888
原创 选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
然后,如果 N_seq > 1,继续遵循步骤(c)(d)(e)顺序生成 N_seq - 1 个子代解,通过使用 RCC 过程改进每个先前的子代。在迁移期间,在完成当前岛屿上的这一代后,顶部的 N_emigrate 个解从当前岛屿 i 克隆到下一个岛屿 i + 1(该团队按从 1 到 N_island 的顺序顺序更新岛屿上的种群)。在岛屿重置事件期间,首先从全局种群中选择表现最好的个体,平均得分最低的 N_reset 个岛屿上的种群被淘汰,选定的表现最好的个体被克隆到重置的岛屿上。
2025-02-18 15:36:30
910
原创 【本地国标麻将环境源码】botzone-local/botzone/envs/botzone/chinesestandardmahjong.py
python运行复制定义一个继承自Env的类,用于实现国标麻将的游戏环境。python运行复制元数据:定义了渲染模式,['ansi']表示支持终端文本渲染。python运行复制定义step方法,表示游戏中的一个步骤或回合(例如摸牌、出牌、吃碰杠等操作)。
2025-02-18 15:08:07
896
原创 马斯克xAI发布Grok 3核心要点
来源:https://techcrunch.com/2025/02/17/elon-musks-ai-company-xai-releases-its-latest-flagship-ai-grok-3/xAI声称,Grok 3在多个基准测试中超越了GPT-4o,包括评估数学问题解决能力的AIME和博士级别的物理、生物及化学问题GPQA。自推出以来,Grok一直被定位为前卫、未经过滤且反“觉醒”的AI,马斯克将这种现象归因于训练数据来源,并承诺让Grok更加“政治中立”。马斯克表示,Grok 3的开发。
2025-02-18 14:44:37
375
原创 大语言模型和蒙特卡洛树搜索的组合—还记得2016年AlphaGo引发的轩然大波吗?
这个公式描述了强化学习中的核心问题,即如何找到最优策略 π∗\pi^*π∗,使得在任何时间步和历史信息下,期望的累积奖励最大化。它基于动态规划思想,通过递归地评估未来奖励,最终找到最优的动作选择。
2025-02-18 14:33:45
963
原创 循环神经网络和代码里面的循环或迭代的概念有什么区别和联系?请详细对比说明
RNN 的循环是通过网络结构本身的递归实现的,而不是依赖于代码中的循环。)是两个完全不同的概念,但在某些方面存在联系。通过理解二者的相似点与不同点,可以更好地掌握 RNN 的原理以及其在实际应用中的实现方式。循环神经网络(Recurrent Neural Network, RNN)和代码中的。循环神经网络和代码里面的循环或迭代的概念有什么区别和联系?循环是直接通过编程语言提供的语法实现的,形式上通常为。循环(loop)或迭代(iteration。上一时刻的隐藏状态,体现了"循环"。xt 是当前输入。
2025-02-18 14:25:13
706
原创 [会议无收录]Mass Mahjong Decision System Based on Transfer Learning
本文提出了一种迁移学习方法,以解决数据缺乏和有效构建模型困难的问题,这在信息不完全领域通常以大规模麻将为代表。设计并实现了基于迁移学习的大规模麻将弃牌模型。先前在一个大型数据集上训练有素的血战麻将弃牌模型被迁移到类似领域的大规模麻将弃牌模型中。在后续的模型优化中,采用基于自我对弈的方法来改进大规模麻将弃牌模型。实验结果表明,基于迁移学习的大规模麻将弃牌模型在数据量较少的情况下表现良好,并能适应大规模麻将弃牌规则。该模型在2021年全国大学生计算机游戏大赛的麻将赛事中获得了二等奖。###CCS概念。
2025-02-18 11:42:47
851
原创 基于强化学习的连珠游戏 github项目
基于强化学习的连珠游戏这是我练习强化学习的个人项目。你可以下载该应用程序并试用一下。连珠是五子棋(五子连珠)的专业变体,它对黑棋增加了以下限制,以削弱游戏中先手的优势。不能用三颗黑棋不间断地(即没有被白棋一颗棋子来构成两条独立的线。四颗连续的黑棋下出一块构成两条独立线多颗黑子连成一线。概述蒙特卡洛树过与自己玩游戏(又称为“自我玩家”)Rust 语言开发,以避免 Python 中 MCTS 的性能瓶颈。优化以使用量化。它在 Mac M1神经网络下图展示了 AlphaGo Zero 的策略价值网络。
2025-02-18 11:28:09
576
原创 五子棋小知识——国际连珠联盟(RIF)
自1988年国际连珠联盟成立,在一年后,在日本京都举办了第一届世界连珠锦标赛,作为连珠运动的世界最高赛事,获胜者获得世界冠军头衔。在会员大会中,会进行各委员会的报告工作与成员选举,新成员国家或地区的吸纳,以及一切其他需要在会员大会中讨论与商议的事宜。在随后的20余年内,国际连珠联盟又逐步吸纳其他的国家或地区成为会员。,简称RIF),是连珠(专业五子棋)运动的国际组织,负责在国际范围内组织和推广连珠运动。),联盟负责联合世界范围内的国家或地区性连珠协会,进行连珠活动的指导与推广,以及世界锦标赛的组织。
2025-02-18 11:22:36
707
原创 Teaching AI Algorithms with Games Including Mahjong andFightTheLandlord on the Botzone
本文介绍了一门名为《游戏AI算法》的课程设计,作为本科选修课程。该课程主要关注游戏AI领域常见且最先进的算法,包括基于游戏树的算法和强化学习。在博智在线平台的驱动下,我们的游戏AI平台设计了不同类型的作业,以提供丰富有趣的学习体验。我们选择了几类游戏,其中包括两款流行的中国经典游戏——麻将和斗地主,它们都是合作性、随机性和部分可观测性的。据我们所知,这是首次将这些游戏应用于AI课程中,从而为游戏AI教育提供了新的基准。为了鼓励参与并减少挫败感,采用了基于里程碑的比赛和奖励任务。
2025-02-18 11:13:56
580
原创 东大华人博士让GPT-4用「心智理论」玩德扑!完胜传统算法,碾压人类新手
Suspicion Agent没有进行任何专门的训练,仅仅利用GPT-4的先验知识和推理能力,就能在Leduc Hold'em等不同的不完全信息游戏中战胜专门针对这些游戏训练的算法,如CFR和NFSP。例如,DMC经常在拿着最弱的一手牌时加注,而CFR有时甚至会在拿着中级牌时加注,以对Suspicion Agent施加压力。此外,如图10所示,在对手跟注或回应Suspicion Agent的加注情况下(这表明对手手牌强大),Suspicion Agent就会迅速调整策略,选择弃牌以防止进一步损失。
2025-02-18 10:42:04
862
原创 CAAI TIT2区]Tjong: A transformer‐based Mahjong AI via hierarchicaldecision‐making and fan backward
这篇论文提出了一个基于Transformer的麻将AI(Tjong),通过层次化决策和反向奖励技术来提高AI的性能。
2025-02-18 04:07:18
466
原创 [Algorithms未收录]Official International Mahjong: ANew Playground for AI Research鲁云龙
这篇文章探讨了将国际麻将作为人工智能(AI)研究的新平台。
2025-02-18 03:47:45
867
原创 中国选手鲁云龙夺得福尔摩斯麻将解谜大赛冠军
从他们的演讲中,我们总结了三种类型的算法:将人类知识融入 AI 的启发式方法、从游戏数据集中训练神经网络模型的监督学习,以及无需人类知识即可从头开始学习的强化学习。我在这个主题上发表了两篇论文,一篇 [1] 介绍了 MCR 作为 AI 研究的新测试平台和基准,另一篇 [2] 总结了以前的麻将 AI 比赛的结果。在我学会了 MCR 的基本规则后,我在平台上与比赛中最好的人工智能代理玩了数千手,并通过模仿它的行为逐渐改进了我的策略。今年的比赛给了我这样的机会,事实证明我真的可以自己解决不同难度级别的谜题。
2025-02-18 03:38:09
485
原创 LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
研究团队提出将原始代码文件转换成可执行的函数,并设计一个更直接的任务:给定一个函数及其相应的文本查询,模型需要以自然语言的CoT推理形式预测给定输入的执行输出或给定输出的可行输入。为了研究不同综合模型的效果,作者使用DeepSeek-V2.5重新生成了350万条WebInstruct数据集的响应,创建了一个更新的数据集,称为WebInstruct-DS25。此外,他们还在输入-输出对的维度上进行了数据scaling,方法是固定并使用所有唯一的原始代码样本,但改变每个样本的输入-输出预测实例数量。
2025-02-18 03:22:14
850
原创 Cursor 开源平替 Cline 到底是如何实现的?本文带你刨根问底
Cline 插件采用模块化设计,主要由以下核心组件构成:ClineProvider:负责状态管理和 UI 交互Cline:核心业务逻辑处理外部服务集成:包括 AI 服务、认证服务等工具系统:提供文件操作、命令执行等能力工具统一在VS Code 中集成文件操作、命令执行、浏览器控制等能力提供统一的界面来执行各种开发任务减少工具切换带来的认知负担智能自动化通过 AI 理解开发者意图自动完成重复性工作智能化的代码理解和生成上下文保持维护对项目结构的持续理解在任务执行过程中保持状态连贯。
2025-02-17 14:39:43
646
原创 Chain-of-Action (行动链):从Agent工作流到Agent模型
从形式看,推理模型的数据是(Q,CoT,A),Agent模型的数据是(Q,CoT,CoA,A)。有了系统一底座(4o/V3)的行动action(如tool use)能力、系统二模型(o3/R1)的链式推理Chain-of-X的能力,才有可能得到Agent模型的Chain-of-Action能力。最直接的是沿用推理模型已经证明成功的训练方法。同样的,为了实现边思考边行动的能力,此前的Agent工作流的方式通过更为复杂的prompting (可以成为“工作流工程”),“强迫”模型在思考和行动之间切换。
2025-02-17 14:28:50
748
原创 Z Event|与MIT教授、DeepMind科学家们齐聚硅谷早期基金,解密AI Agent商业化!
Inworld AI 是全球领先的 AI NPC 生成公司,专注于游戏、虚拟世界、沉浸式体验中的 AI 交互角色,Florin 负责公司运营、商业发展与战略合作,推动 AI Agents 在游戏与元宇宙场景中的应用。AdsGency AI 是一家专注于 AI 生成内容和智能营销的前沿创业公司,致力于打造新一代 AI 代理(AI Agents),入选 HF0 2024 批次,推动 AI 在广告商业的落地应用。2025年02月16日 19:58。原创 Z Potentials。等面向全球市场的热门游戏。
2025-02-17 14:22:25
831
原创 让 Claude 学会“动脑筋“的妙招:思维链提示法
首先,根据捐赠者的捐赠历史和支持的过往活动,思考可能吸引他们的信息。然后,根据他们的历史,思考"关爱儿童"计划的哪些方面可能吸引他们。随后介绍了从基础到复杂的三种 CoT 实施方法:基本提示、引导提示和结构化提示,同时也提醒用户在使用时要权衡性能和延迟,根据具体任务需求选择合适的思维链策略。首先,根据捐赠者的捐赠历史和支持的过往活动,思考可能吸引他们的信息。然后,根据他们的历史,思考"关爱儿童"计划的哪些方面可能吸引他们。:就像教孩子做题,重点要让AI把思考过程写出来,这样才知道它有没有开动"脑筋"。
2025-02-17 14:19:08
376
原创 Deep Research 如何重塑知识价值体系
虽然OpenAI对AGI的定义常变(CEO奥特曼前一天刚说AGI需要"在多领域解决人类水平的复杂问题"),但我认为当前的 DeepResearch 恰好处于关键阶段:它能高效整合现有知识创造经济价值(AGI的重要指标),但尚未突破到原创性发现。这揭示了AGI冲击的双面性:当AI能答对所有课本问题,教育的重点将转向"提出有价值的问题"。要求研究ServiceNow公司的AI转型战略,系统在1分钟内提出12个研究方向,包括SaaS行业的"平台陷阱"风险,有效替代了我3小时的文献整理。
2025-02-17 14:14:14
614
原创 扑克强化学习/DouZero/douzero/evaluation/simulation.py
以下是斗地主强化学习中的深度蒙特卡罗算法部分,请逐行解释如下代码,line by line 用中文。模型路径或类型(如随机、RLCard。: 重置环境,为下一局游戏做准备。并为每个角色分配对应的模型。总胜场数(因为农民有两人)。三个角色(地主、上家、下家。地主总得分 / 总胜场数。游戏环境类,提供初始化。,使用深度学习模型。模拟的一组游戏数据。每个元素代表一局游戏。: 初始化这一局游戏。
2025-02-17 11:45:49
696
原创 斗地主老是输?一起用 Python 做个 AI 出牌器!
最近在网上看到一个有意思的开源项目,基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器,看看AI是如何来帮助斗地主的!
2025-02-17 11:24:02
1080
原创 PPO & GRPO 可视化介绍
以下文章来源于是海潮音 ,作者是海潮音本文来自Google DeepMind研究员Jimmy关于PPO & GRPO 可视化介绍。
2025-02-17 11:05:57
960
原创 ICML 2021] DouZero: 从零开始通过自我博弈强化学习来学打斗地主 Github
DouZero是一个为斗地主设计的强化学习框架。斗地主十分具有挑战性。它包含合作、竞争、非完全信息、庞大的状态空间。斗地主也有非常大的动作空间,并且每一步合法的牌型会非常不一样。DouZero由快手AI平台部开发。
2025-02-17 10:45:05
1242
原创 图灵奖得主杨立昆万字实录:AI正在加剧社会认知分化
因此,如果我们从已经存在监管的应用领域开始着手,这可能是一种比较简便的方法。除此之外,我同意 Mike 的观点,另一方面是需要建立适当的激励机制,也许可以由政府出面,激励那些对社会有益的方向,从而促进人类福祉。我们是否可以在这些方向上投入更多的研究和开发?我认为这可能是最有效的方法之一。
2025-02-17 10:05:11
688
原创 用地表最强斗地主AI-DouZero实现连炸玩法AI
DouZero是一个为斗地主设计的强化学习框架。斗地主十分具有挑战性。它包含合作、竞争、非完全信息、庞大的状态空间。斗地主也有非常大的动作空间,并且每一步合法的牌型会非常不一样。DouZero由快手AI平台部开发。
2025-02-17 09:46:26
1285
原创 程序员的红利彻底过去了。审美、判断力和商业思维会越来越重要。
美国市场上,AI 编程赛道创业公司拿到了 30 亿美金的融资,除了 Cursor 外,还有好几个公司在做底层的模型,目前还没发布产品。所以,正式开写之前,我先说明下:这只是我个人的判断,不代表什么确定的事实。过去这些年,我写过代码,也管理过研发团队,这两年创业做产品,不再写代码。AI 能做的事情很少,还老出错。本来这两年,随着互联网的增长停滞,工程师的薪水就已经在回落,这是缓慢发生的趋势。第一,沟通需求,设计方案的工作,AI 也在介入。,就能够搞定一个相对独立的产品需求,人少了,沟通效率也会进一步提升。
2025-02-17 09:40:14
419
原创 DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化
Special Tokens 的差异:Deepseek 更改了 qwen tokenzier 的一些 special token id 对应的 token 内容。Chat Template 的差异:Deepseek 更改了 qwen 的 chat 模版,沿用了其满血版模型系列的 chat 模版,但存在 bos_token 重复两次的问题。Generation Config 的差异:Deepseek 给出了蒸馏模型合适的模型推理参数,比如 temperature 为 0.6,top_p 为 0.95。
2025-02-17 09:31:28
1405
原创 为什么说transformer大模型架构时间复杂度是n的平方
在一个 Transformer 层中,除了自注意力机制,还有前馈神经网络(Feed-Forward Network, FFN)。这些方法在一定程度上缓解了 Transformer 在长序列任务中的效率问题。在 Transformer 的自注意力机制中,每个序列中的每个元素都需要。的增加而迅速增长,因此对长序列的处理提出了许多优化方案。因此,Transformer 的时间复杂度通常被认为是。在自注意力机制中,最主要的时间复杂度来源是计算。Transformer 的时间复杂度是。的矩阵计算,导致复杂度为。
2025-02-17 09:22:47
1413
原创 Qwen架构改造成Deepseek,再复现R1计划
本文证明了GQA模型都能转化为MLA形式,给了大模型厂商一个放弃GQA,拥抱MLA的理由,以及快速过渡的方法。然而收到原始模型结构的限制,TransMLA的结构并不是最优的,如没有对Query进行压缩,没有使用Decoupled RoPE,以及Key和Value使用了独立的latent Vectors。若要从头训练模型,仍然建议在Deepseek V3的结构上进行创新。TransMLA能够提升目前R1蒸馏Qwen,蒸馏LLaMA项目的效果。未来我们将会进行这一工作,并开源训练代码和模型。
2025-02-17 09:18:57
879
原创 详细距离语言中的信息熵,可以以中文和英文做比较来距离,详细说明中英文的信息熵含量谁高谁低,最好给出计算过程。
详细距离语言中的信息熵,可以以中文和英文做比较来距离,详细说明中英文的信息熵含量谁高谁低,最好给出计算过程。编辑GPT-4oPoe要比较中文和英文的信息熵,需要从信息论的角度详细分析两种语言的符号系统(例如汉字和英文字母)的信息量,并结合统计数据进行计算。以下是详细的分析与计算:信息熵衡量的是符号系统中平均每个符号携带的信息量,公式如下:H(X)=−∑iP(xi)log2P(xi)H(X) = -\sum_{i} P(x_i) \log_2 P(x_i)H(X)=−i∑P(xi)log2P(xi
2025-02-16 19:47:31
725
原创 博弈论在截至到最新2025年的发展是什么? 我怎么感觉并没有太大进步,比方说理论上强烈依赖博弈的棋牌如麻将、扑克、德州扑克等等,都被强化学习相关AI技术取代,博弈论已经过时了吗?
嗯,用户的问题是问博弈论在2025年的发展情况,并且觉得博弈论可能过时了,因为像麻将、扑克这些博弈类游戏已经被强化学习的AI技术取代。我需要结合搜索结果来分析,看看博弈论的最新发展,以及它是否真的过时了。首先,我得看一下用户提供的搜索结果。网页1提到博弈论在深度强化学习(DRL)中的新趋势,比如平均场博弈、随机博弈和进化博弈。这些新方法正在影响DRL的发展,特别是多智能体环境中的应用。比如平均场博弈处理大量智能体的互动,随机博弈用于解决多玩家协作和竞争问题,而进化博弈则关注策略的动态演化。
2025-02-15 04:35:28
790
原创 读《黄帝内经》:不得不知的人体排毒时间
今天学习课一本书《黄帝内经:健康排毒不生病》,书里介绍了经脉的排毒时间,我很感兴趣,看完完之后,我觉得减肥人应该遵守这些节律,以获得身体的最佳状态。戌时心包经值班,心包最为活跃,也是一天当中的第三个黄金时段,可以去散步和锻炼身体,但不宜从事剧烈的运动,否则容易失眠。晚餐应吃点易消化的,这样才不会加重肝的负担。以上四物一同放入锅中,加适量水,大火煮沸,然后改为小火煮至熟透,加入少许冰糖,忌过甜,待其溶化后即可食用。申时(15:00~17:00),膀胱经最旺,膀胱与肾互为表里,膀胱经与膀胱络属,与肾脏有联系。
2025-02-15 04:26:06
926
11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评
2024-10-22
10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类
2024-10-21
Multimodal Representation for Neural Code Search
2024-10-21
[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs
2024-10-21
avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip
2020-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人