2023阿里巴巴全球数学竞赛决赛中的LLM背景题解析(应用与计算数学部分第2题)...

早点关注我,精彩不错过!

最近闹得沸沸扬扬的姜萍事件果真又成了世界就是个草台班子的有力论据。无论真相如何,各自心怀鬼胎,自有策略的合作看起来就一定是一场场的闹剧。

无意作过多评论,也绝不妄下言论,就观察子弹怎么飞以及飞的过程就够耐人寻味了。

不过,这次事件倒是成功地吸引了我抽空重新关注阿里巴巴全球数学竞赛这一赛事。

可惜这比赛创办之时已不是读书人而是社会螺丝钉,早就没了当年的锐气和勇气去参与和拼搏一番,有的是成人世界的极致权衡的策略罢了。不过既然到这了,我不禁翻开了今年的初赛试题。嗯,确实和以往我熟悉的中等数学竞赛风格还是迥异的。既不是考察如平面几何的奇技淫巧,更不是数学游戏这般门槛极低的大众娱乐,而是看起来还挺严肃的大学数学学科内容。显然这些内容更接近比较小型初等的研究课题,因为这些内容是研究而不是游戏,也没有广泛竞争性,这也体现出这个比赛的独特之处。

索性又再搜索了下去年2023的决赛试题,官方分为了代数数论,集合拓扑,分析方程,应用与计算数学,组合概率5大模块。看来,以人类今天数学知识的厚度,已经默认一个个人类个体应该是难以再出欧拉高斯那样的神仙了,要出就只能期待AI了。看到这些细分领域,除了入门了一点代数、每天应用着计算数学和组合概率仅还算熟悉外,其他内容我已经要很费劲了。毕竟工业生产和理论证明之间,压根就互不依赖。

不过,看到应用与计算数学部分时,不禁眼中一惊,就是下面这题:

979baa33869cb10b99a398c0e3079dee.png

居然是以当今最热、货真价实的LLM中的RLHF算法为背景命题的!不愧是互联网公司办的数学竞赛,也算颇具特色了。不过,当我读完、做完以后,不禁也再度感叹,数学和算法,基本可以成为独立的两种能力,只是偶尔被同一个人所具备罢了。一个优秀的LLM的架构师或强化学习的算法研究员,可能压根没仔细思考过以上的证明问题,而引导其走向工业应用成功的能力中,工程能力,算法经验,项目管理,有一大堆东西排在数学证明前面,全都搞定了再来管数学也是不迟的。相反,一个传统的数学家可能也不了解算法的世界,其研究方向可能于工业界在大部分时候没什么用,偶尔的碰撞并不是那么容易发生。更何况,数学的逻辑证明,经常在工业领域被大家都这么用,效果一直不错,就圆过去了,这早就是司空见惯的实用主义逻辑。数学那点东西,实在ROI太低。

不过吧,拿着题,仔细看过想过,不写出来就牙痒痒,就好像有个事没做完,就没法释放大脑已经分配的计算资源来干别的事一样。于是我花了点时间,也查了些资料,给出我的解答:

b2053f1ebf077c594b518191aa2870f8.png

简单说两句吧。

0. 这种中等以上的数学和前者有明显区别,那就是没有太多人为设置的解题门槛,而是来源于理论和实际问题的困难,比较直接地摆着去解决,不是有答案的解谜猜谜,更像是探秘。像本题,论思维链条的长度,关联广度,对经验的要求,要远远低于一道平面几何题,但是其结论本身又都是有实际价值和意义的,证明的难度其实主要在理解题意的本质,按照定义的本质写出式子,整理一下基本就成了。

1.  强凸函数式指的比凸函数再多一个二次项的值,使得其不仅在切线上方,更高于一条抛物线。这个性质使得函数收敛更快,是神经网络优化中一类加速收敛算法中的核心技术。不过这里对解题帮助不大,凸函数定义正反推导一下就秒了。

2.  从解题而言这算是一个构造类问题。但是,从强化学习排序的角度,其实很容易想到这个构造方式。因为这个G函数本质上是一个单调的非线性映射成分,不要让线性项直接抵消掉,而这里的排序走的是打分+排序的逻辑,因此我们在优化L函数时,一定是sort后取得当下这些r值(连续情况下就是mu分布的样本)排序后来算的,显然这个序要和真实标的相同是前提,而且希望大家都排序的情况下,我打出来的L函数还要更大才好,以区分得最好。于是题意中的这些性质基本就不言自明了。其中最后的加和性质其实是对称序列构造的问题,结构很是巧妙,还有点像Reverse原理的意思。另外,这里的反证法其实看起来是用存在来解决一个任意全程的问题,因为前者的逻辑链条有时好推导,这其实是我们逻辑公理的问题吧,也正好符合了一部分一般思维规律,很自然。

不过吧,没想过这些问题,真不影响做LLM和强化学习。

3.  题目表述还挺有意思,不依赖于c,可不就是常函数嘛,只需要按定义写出原式子是一个泛函导数在c处的值的含义,剩下的直接就是拉格朗日乘子法的结论了。所以只要看懂了定义,写明白了,思维链条倒是不难。但看懂题意定义,基本就代表这部分数学,你得熟练掌握,但不是那种刷题的背诵。

好了,就说到这里,保持对数学、科学和技术的敬畏之心,常读常新,共勉!

附:2023阿里巴巴全球数学竞赛决赛试题地址

https://files.alicdn.com/tpsservice/d2a6b6ee90217712d3e3897b5f4427a1.pdf

8718c22b3a0026b297d98616dad28847.gif

我们是谁:

MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!

f46ad87b704a61009b3a824ac986f263.gif

1da594f18e46944fc3a814f22a7832ea.png

55558a22906b8aa0e5af020e5fa6706e.jpeg

扫描二维码

关注更多精彩

CATO原理中的数学与魔术(十四)——流程设计思路与升华

魔术里的交代与暗交代(三)——暗交代是怎么做的?

牛顿运动定律的谜团(四)——牛顿定律的数学模型

魔术《4 Kings 折纸》的三重境界(四)——魔术效果的突破

视错觉与魔术(二)——橡皮筋的奇迹

c8b256f9e3bdee04b0fc805146dd3684.gif

点击阅读原文,往期精彩不错过!

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值