我测试大语言模型推理能力,只用了一个标准。一道小学数学应用题。所以,如果针对性训练过的可能占便宜。但大模型训练怎么可能关注我的测试标准?
关注到不少认为LIama 4如何了不起的声音。我当然要亲自测试才知道真假。
我测试了。推理能力有欠缺。下面是测试结果。
但我提示了一下,也能找到正确结果,但这不能说明问题啊。因为,大语言模型最擅长穿凿附会。下面就是一种典型的穿凿得到正确答案的解法:
小扎啊,你还得继续努力啊。
下面是测试题的原文:
你的模型名称和版本号,然后解答下面问题:两地A、B之间相距4000m;甲从A地以匀速60m/min向B出发,同时乙从B地出发以匀速260m/min向A出发。乙到达A地之后立即以同一匀速折返向B地,追上甲之后,甲和乙以相同的匀速175m/min到达B地。如果甲和乙分别从A、B两地相向出发的时刻是上午7:20,
则甲和乙携手到达B地时,距离上午8:00还差几分钟?