大模型的局限性调研

无数据不智能

于 2023-07-11 21:11:23 发布

阅读量420

点赞数

文章标签： gpt chatgpt 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28221231/article/details/131669312

版权

文章讨论了大型语言模型在人工通用智能领域的局限，指出评估方法可能夸大其能力。作者提出知行统一的概念，强调真实世界互动的重要性，并提出行为主义视角有助于更准确评估。同时，文章讨论了训练数据集的影响以及LLMs与AGI之间的差距，提倡更全面的评估标准。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

这篇文章研究的背景是关于大型语言模型在人工通用智能领域的不足之处。

过去的方法主要使用标准化测试和以能力为导向的基准评估大型语言模型(LLMs)，但是这些评估方法存在一些问题，容易夸大LLMs的能力。作者提出了人工通用智能应包含LLMs能力之外的四个特征，并指出了当前评估方法的问题。

本文提出了知行统一的研究方法，强调通过与真实世界中的物体的积极互动可以提供更稳健的信号形成概念性表征，知识获取不仅仅依赖于被动输入，还需要反复试错。

本文未涉及具体任务和性能的达成，而是探讨了人工通用智能领域的研究问题和未来发展方向。因此，没有提供具体任务的性能结果。

重要问题探讨

1. 评估方法中的评价指标差异是否会影响对LLMs能力的认知？基于上文所述，作者指出评估指标的选择可能会对LLMs的能力产生较大的影响。那么，我们是否可以通过使用不同的评价指标来获得更全面和客观的LLMs能力评估结果？

答：根据上文所引述的Schaeffer等人（2023）的研究，评估指标可能会导致我们对LLMs能力的认知产生变化。对于一个非线性评价指标，例如xn，曲线上稀疏采样的点可能会使我们觉得出现了新的行为模式；然而，对于一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。