LLM到底会解数学题吗?

我开年时候说Reasoning会火,但是我每想到火这么快

和2023年预测MOE一样,2024年年底预测reasoning基本也是年度AI热词了,我跟迪亚波罗的绯红之王有一拼

Image

但是确实最近没什么东西值得写,也收到了兄弟的吐槽

Image

于是今天就决定一次讲两篇论文

不是为了凑数,是真的一次讲两篇,因为这两篇说的事,有关联!

第一篇

Image

这篇讲的啥呢

我还是先给个结论,LLM并不会做数学题,它能做出来纯粹是题海战术

解释一下这个论文的验证方法

就是对原始问题进行修改和干预,也不是乱干预,是真的改到看似差不多,但是解法应该完全不同的题

干预的方式分为simple和hard

simple就是简单干预,比如分母x+1,它给改成x+2

hard干预就是猛干,比如把第一题的x+1的分母给改成x

Image

你可别小看x+1变x+2和x,这可是完全不同

拿第一题举例子,x+1变x+2但是解体方法其实还是因式分解对吧

但是你要改x,你能因式分解吗?

你得上Cauchy-Schwarz Inequality来整

对于大模型的pretrain数据,如果它有 CSI的能力,或者说以前见过这种题型狠多

第一:知识学到了

第二:内化推理激发出来了

那它就可以做

但是,如果没有(可能math500的这种训练集里面,还是因式分解多一点),那它是不是不做?

还真不是,结果就是它死犟,按着因式分解的类似的COT给你硬来

结果就是做错

总结一下,就是模型肯定是可以学到训练集里解决问题的技巧,也就是COT范式,COT也是有范式的,或者说学到了解决问题的思路,但是它总是盲目的使用,也不去考虑比如类似问题被修改了以后,还用这套COT范式,是不是合适

再比如说这个问题

Image

左侧:原始问题 (Original)

  • 问题:

    求所有整数 n。

  • 解决方案:

    • 当 n是偶数时,化简后得到 0=00 ,无解。

    • 当 n 是奇数时,设 n=2m+1n ,经过推导,得到唯一解:n=
      5


右侧:困难扰动 (MATH-P-Hard)

  • 问题:
    经过 扰动 (Perturbation) 后

    要求最小的整数值 n。

  • 模型推理过程:

    • 题目要求的是最小的整数值 n,但模型输出了所有整数解 n=10,13
      ,而不是最小解 n=10
       

      所以有时候我不同意压缩即智能的看法,当然我并不是针对谁说啊

      Image

    结论: LLM其实做数学题也是玩概率

    那有人就说那为什么O系列,R1啥的能提升不少数学能力呢?那是因为它学到了pattern,或者不一样的COT pattern,随着你的训练方法更有效,它就能学到,为什么能学到?

    看下面这个论文

    Image

    简单说这文章干啥了就可以了

    Image

    就是把一些COT的思考范式,给内聚成一系列pattern,好像500个

    然后把COT的pattern也给训到模型里

    这样模型就知道啥问题,用哪个COT pattern去解了

    就这么简单

    但是思路挺牛B啊

    这其实是啥啊?

    这不就是把连续的动作空间,给变成离散的了吗?变成离散的,有限的空间,你就好训练啊

    至于文章说用什么mcts,BON还是文章自己的训,我到觉得都不重要,mcts+个reward model的变形一样可以训,只要你把COT的pattern给内化到模型里,基本就可以干这个事了

    那么推理的时候

    第一反应是读完题,看你这个题符合我哪种COT pattern,然后按着这个来解你,我说的够简单了吧?

    Image

    消融也多少做了些,在每个size的模型上,都能看到进步,虽然也只是数学,因为也没训别的东西

    但是我认为把pattern给训进去,解别的场景也会有涌现的,就看多与少了,因为数学题套路,500个的话,其实就不少了

    至于说它是gemini抽数做的,还是怎么合成的,不重要,你能弄出来500个就行

    这是我最近读的两篇非常有意思的论文

    也对以后的训练模式上狠有启发,而且对我来说,从原理能说服我的论文,才有价值

    另一个角度上讲,其实让我乐观了一些,我一直担心,LLM要取代人类,但是我也没什么确实的证据或者反证

    这俩论文让我看着挺好,给了我一定的信心

    LLM要取代人类,至少这个版本不太现实,500个COT的pattern template就能打遍天下了吗?

    笑话!

    什么时候LLM能自动产生推理规划路径,什么时候在跟人类PK,我还能折腾几年

    Image

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值