很多人在探索AI的能力边界。这不仅有助于我们更好地理解和使用AI工具,同时也帮助我们定义人类的独特性和意义。毕竟,在这轮AI技术的大发展中,人类智能正面临AI的强烈挑战。这有关人类的意义和未来。
在文章《What LLM Can Never Do?》中,作者Rohit Krishnan指出:“在过去几年里,每当我们提出LLMs无法解决的问题时,它们总能出色地通过我们的测试。”
AI高考风云
今年,多款大语言模型参加了河南高考。6月24日,各批次录取控制分数线公布:本科一批文科521分,理科511分;本科二批文科428分,理科396分;高职高专批文科185分,理科185分。从结果看,这些模型全部超过高职高专分数线,有的甚至达到理科二本线和文科一本线。
图:2024年大模型高考成绩(来自:https://36kr.com/p/2833925514398212)
高考考察的是学生对各学科基础知识和核心内容的理解、分析和综合运用能力。从成绩来看,AI的能力超越了80%的莘莘学子(2024年,河南高考考生人数为77.6万,其中15.6万人达到一本线)。
布鲁姆认知目标分类体系
1956年,教育心理学家本杰明·布鲁姆提出了“认知目标分类体系”,这是一个帮助教师和教育工作者设计更有效课程和评估方法的结构化框架。它定义了六个认知层次,从低到高依次为:记忆、理解、运用、分析、评价和创造。大半个世纪以来,该方法在全世界教育界影响广泛而深远,成为根植于全球教育标准。
布鲁姆认知目标分类体系,分为六个认知层次,从低到高为:记忆、理解、运用、分析、评价和创造。右侧的一系列动词截图来自 http://www.xxlcn.com/news/sikao/20977045HFHKEA073F3GA86JA310.htm
借用布鲁姆分类法,简单分析OpenAI ChatGPT主页上的24个案例问题,不难发现,AI的认知能力已经覆盖了布鲁姆定义的所有认知层面。其中,大量案例集中在创造性任务上,如生成、设计、规划等,这些任务往往是人类最高阶的认知活动,需要绞尽脑汁才能完成任务。而ChatGPT则可以“云淡风轻"地完成。
图:在Open AI ChatGPT的主页(页面中央有24个样例问题)
ChatGPT Questions | 布鲁姆认知目标分类 |
---|---|
Write a text inviting my neighbors to a barbecue | 应用 |
Give me ideas for what to do with my kids' art | 理解,分析 |
Help me study vocabulary for a college entrance exam | 创造 |
Write a message that goes with a kitten gif for a friend on a rough day | 应用 |
Test my knowledge on ancient civilizations | 记忆 |
Write a text asking a friend to be my plus-one at a wedding | 应用 |
Improve my essay writing ask me to outline my thoughts | 评价 |
Tell me a fun fact about the Roman Empire | 记忆 |
Give me ideas about how to plan my New Years resolutions | 创造 |
Help me pick an outfit that will look good on camera | 评价 |
Write an email to request a quote from local plumbers | 创造 |
Create a charter to start a film club | 创造 |
Write a Python script to automate sending daily email reports | 创造 |
Create a personal webpage for me after asking me three questions | 理解,创造 |
Create a morning routine to boost my productivity | 创造 |
Plan a 'mental health day' to help me relax | 创造 |
Design a programming game teach basics in a fun way | 创造 |
Make up a story about Sharky, a tooth-brushing shark superhero | 创造 |
Explain nostalgia to a kindergartener | 分析 |
Plan a trip to experience Seoul like a local | 创造 |
Create a content calendar for a TikTok account | 创造 |
Suggest fun activities to help me make friends in a new city | 理解 |
Make a sandwich using ingredients from my kitchen | 应用 |
Quiz me on world capitals to enhance my geography skills | 记忆 |
创造 (Creating)不一定是创新 (Innovation)
AI的创造能力令人瞩目。ChatGPT能生成漂亮的营销文案,SORA则可以生成在咖啡杯中的惊涛骇浪里的海盗船的神奇视频,每天有无数张赛博朋克风格的图片被大语言模型生成,在多模态AI帮助下,郭德纲用英语讲着相声,霉霉以纯正的国语接受采访...
图:AI在文字、图像、视频、音频等多模态下,展现出超强的生成能力
AI强大的创造能力似乎碾压了人类。从以上的例子可以看到,它强于“转换”和“综合”,糅合丰富多样的知识,将“一言难尽”的信息表达出来。但是,我们还是能够感受到它创造力的局限性,即缺乏“创新”的能力,即引入前所未有的新方法来解决某个问题。因此,我们会发现AI小作文虽然中规中矩,但常常带有八股文风;AI生成的图片虽然绚丽无比,但同时往往也是千篇一律的风格。
或许,大语言模型的幻觉(Hallucination)在某种程度上,似乎能够体现出大语言模型还是有“创新”能力的。不过,幻觉往往因为违背事实、不合逻辑,而被视为大模型的缺点被人们所批评。
人类却从来不乏创新者, 托马斯·爱迪生、阿尔伯特·爱因斯坦、史蒂夫·乔布斯、伊隆·马斯克.. 众多的创新者开拓了新领域,开创了新技术,发明了新产品,推动着人类社会的进步和发展。创新的意义巨大而深刻。毫无疑问,AI的发展也是拜创新和创新者所赐。
其实,论记忆能力,人类早已不是计算机的对手。通过大量数据进行训练,利用神经网络中的自注意力机制和非线性变换来捕捉语言中的复杂模式和结构,从而生成和理解自然语言。当训练数据足够多,模型的规模足够大和复杂,大模型推理表现出很高的理解、分析、运用和评价的能力,似都具有合理性。而创新从本质上就是独特的,史无前例的,也就是从训练数据中无法得到的。而且,虽然大语言模型也可以轻易地做出无穷的变化(比如改变参数的权重),但是,绝大多数的变化并没有意义。这是不是确保了在创新这一部分,人类还保有超越AI的能力?
智能体使能AI创新?
虽然大语言模型的机制似乎决定了其不具备实质的创新能力;但是,智能体技术的发展,特别是Self-Refine和Reflection等智能体设计模式的出现,让人感受到一丝丝寒意。以最简单的Self-Refine模式为例(见下图),第一步大模型推理(Inference)的结果再下一步被交给大模型进行评估(Quality Assessment),第二步评估的结果再进一步交给下一个大模型分析,给出改进建议(Advising)。这个推理+评估+分析的过程进行迭代,改进建议被反馈给第一步的大模型,结合改进建议的推理,输出的结果则有可能获得了优化。如此这般多次迭代以后,这套系统就有可能给出更好的结果。
图:一个Self-Refine智能体工作流
这样,通过(1)不断的迭代,(2)推理模型可以尝试各种变化,而(3)评估模型帮助判断推理结果的好坏,(4)建议模型可以通过对推理和评估结果进行分析,并(5)将建议反馈推理模型,影响其变化策略,从而有可能达到实现有意义的创新的目的。其实,这个迭代+评估+分析的机制与人类的创新模式也非常相似。人类也往往是通过千百次的实验、不断地失败、总结失败教训,再改进实验,最终获得成功。
到目前为止,我们还尚未看到创新智能体的显著实例。但是,AI会最终夺走人类认知最后的骄傲吗?
部分参考资料
What LLM can never do? by Rohit Krishnan, https://www.strangeloopcanon.com/p/what-can-llms-never-do
Plausible Tomorrows by Vinod Khosla, https://www.khoslaventures.com/wp-content/uploads/Khosla_Plausible-tomorrowsv2.pdf
Romanes Lecture: ‘Godfather of AI’ speaks about the risks of artificial intelligence, https://www.ox.ac.uk/news/2024-02-20-romanes-lecture-godfather-ai-speaks-about-risks-artificial-intelligence