从我的判断来说,transformer应该快到头了gpt5.5最多,后面就恐怕停滞了,幻觉无法克服,训练数据无法突破,就像一个物理问题可能有几百层的理解,而且步骤都要对,必定在几百步过程中有几步出错,导致无法得出结果。世界模型,具身智能,具身学习,元学习,合成数据,强化学习,通过自我博弈,我凭直觉推断应该能达到某种意义上的智能,但能不能解决千禧年数学问题那种水平,看实践吧,时间会给出答案
怎么将桌子上碗洗干净,假如一个桌子桌子高100cm,桌面是一个100cm边长的正方形,假如把桌面看成一个平面坐标系,以左下角为原点,那么(25,25)是第一个直径为10cm碗的坐标,(75,75)是第二个锅的坐标,水池在桌子左上角45度的地方,距离5m,请问怎么规划把餐具丢到水池子,还需要考虑哪些因素,假如你是一个机器人,有一个机械臂,怎么规划,不能投掷餐具,给出详细的操作过程,要求非常详细,包括所有的细节,要进行路径规划,并给出所有数学移动距离,这是我想出的问题,试了几次o1pro做的还差点,o3不太行,deepseek r1也考虑的不周到
比如完成洗衣服的整套工作,实质就是如何抓取几十件衣服在三维空间中运动,然后还要规划按洗衣机按钮等运动,机器人还要能同步做几件事,那至少大脑有同时判断规划几百个物体在三维空间中的运动的能力,还不能出错,这要求超大的上下文能力,我算了一下现在100万tokens是极限,大概100万汉字是1.9mb,100万tokens最多能运行几十个物体三维空间运动规划,多了必炸。
假如o3当眼睛,o1pro、Gemini2.5pro做规划,那至少应该还要五年,那时候大概一秒就能完成思考过程并输出当个问题答案,机器人感觉0.2秒,一秒5hz才基本流畅,那恐怕要七年。