一、引言
在应用大模型的过程中,经常会有领导或者专家问起来,大模型领域的常识知识到底该怎么界定?这个问题不好回答,我就用了一个类比,就是一个大学生的通识和特定领域的专业知识。这个解释貌似是说明白了,仔细一想反而可能会更糊涂。正好看到相对严谨明确的一篇论文论述,我将通过对 港科大的Quyet V. Do 等人撰写的论文《What Really is Commonsense Knowledge?》的系统性分析,尝试探讨一下常识知识的定义及其在当前常识数据集构建中存在的问题,并详细探讨这些问题对大型语言模型(LLM)推理能力评估的深远影响。基于对该论文的理解,我尝试提出了一些关于常识知识与引用知识区分的见解,并进一步分析了现有常识数据集的质量问题,进而试着揭示出 LLM 在常识推理能力方面的局限性及未来的改进方向。
二、常识推理的重要性
常识推理是人类理解世界、进行日常交流和解决问题的核心认知能力。在自然语言处理领域,常识推理同样起着关键作用,能够帮助模型更深刻地理解文本的语义、做出更加精确的预测并生成更符合人类逻辑和情感需求的自然语言输出。例如,在对话生成任务中,常识推理能够促使机器生成更符合语境和逻辑的回复;在机器翻译中,常识推理有助于机器克服文化差异带来的语义不匹配,避免出现语义偏差。因此,缺乏常识推理能力会显著影响机器在理解和生成自然语言方面的表现,从而制约人工智能系统在人机交互和复杂任务处理中的应用潜力。
常识推理在许多实际应用中都扮演着不可或缺的角色。例如,在自动驾驶中,常识推理能够使系统预测行人、车辆等动态物体的行为,以适应复杂的交通环境;在医疗问答系统中,常识推理有助于模型理解患者描述并结合背景知识给出科学合理的诊断建议;在家庭服务机器人中,常识推理能够使机器人理解用户的隐含需求并提供有效的帮助。由此可见,常识推理的缺陷会对这些应用场景产生负面影响,降低人工智能系统的实用性和适应性。
三、当前常识数据集的挑战
论文指出,当前用于训练和评估机器常识推理能力的数据集存在诸多显著问题,其中最为突出的是常识定义的模糊性以及数据集中混入了大量非常识知识。许多流行的常识数据集包含了大量专业领域的百科知识和特定学科知识。例如,CommonsenseQA 2.0 数据集中包含了“雄性海马不能生育”这样的生物学知识和“电子比介子小”这样的物理学知识,这些内容严格意义上并非常识,而是属于更为专业的学科知识。这些非常识知识的混入,影响了对 LLM 真实常识推理能力的评估,因为 LLM 在此类任务上表现较好并非由于其具备推理能力,而是擅长从大规模文本数据中记忆和检索信息。
而且,常识数据集构建过程中还存在许多实际挑战,包括如何确保数据的多样性和代表性,如何控制标注过程中的偏差等。常识数据集往往依赖众包标注,而众包标注的质量参差不齐,受标注者个人背景和主观判断的影响较大,这进一步加剧了数据集质量的不稳定性。标注者对“常识”的理解存在差异,导致数据集中包含了不同层次的知识,使得模型难以形成一致性的常识推理判断。
四、常识定义的模糊性
常识数据集质量问题的根源在于常识定义的模糊性。不同研究者对常识的定义差异较大,这直接导致了在数据集构建过程中无法有效区分常识和非常识知识。一些研究者认为常识应涵盖人类日常生活经验中的所有知识,而另一些人则将常识限定为可以通过日常生活经验轻松获取的基本事实。由于缺乏统一标准,这种定义上的不一致性使得数据集中混入了大量非常识知识,进而削弱了对 LLM 常识推理能力的评估效果。因此,明确且一致的常识定义是构建高质量常识数据集的前提条件,也是准确评估 LLM 常识推理能力的基础。
此外,常识知识的定义需要考虑不同文化和社会环境的差异。例如,不同文化对某些事物的理解和常识认知可能有所不同,这使得跨文化常识数据集的构建变得尤为复杂。因此,如何确保常识定义的普遍性和一致性是一个亟待解决的问题。只有建立了统一的常识标准,才能提高数据集的质量,进而更好地评估和比较不同模型在常识推理任务中的表现。
五、常识与引用知识的区分
基于对论文的深入分析,我尝试进一步探讨了常识与引用知识的区别。许多现有的定义缺乏系统性和清晰度,常常将专业知识也归为常识。为了更好地区分这两类知识,我尝试总结了论文中提出的一些示例,例如,“太阳从东方升起”可以被视为常识,而“地球绕太阳公转的周期是365.25天”则属于引用知识。通过这些示例可以发现,常识知识通常是人们通过日常生活经验自然获得的,而引用知识则往往需要经过专门的学习或训练才能掌握。
论文从知识获取、内容与表示、范围与语境三个维度构建了一个特征列表,用于明确区分常识知识和引用知识。从知识获取的角度来看,常识知识可以通过个人经验直接获得,而引用知识通常需要查阅资料或经过系统学习。从内容与表示的角度来看,常识知识通常与日常生活的基本事实和行为相关,而引用知识涉及更为专业和具体的领域,如科学、技术或历史。从范围与语境的角度来看,常识知识通常是普遍共识,而引用知识可能仅限于特定领域或群体。实证研究表明,“是否可以通过个人经验获得”和“是否为普遍共识”是区分常识知识和引用知识的两个最重要特征。
在数据集构建过程中,明确常识与引用知识的界限至关重要,因为这直接影响到模型的训练效果和推理能力。例如,在某些数据集中,引用知识与常识知识的混淆导致模型更倾向于简单记忆专业事实,而非进行推理。这种情况使得模型在遇到新问题时无法灵活应对,从而暴露出其推理能力的不足。如果数据集中包含过多的引用知识,模型将更倾向于通过记忆特定事实来解决问题,而不是进行常识性推理,这会导致模型在面对新问题或无法通过记忆解决的问题时表现不佳。
六、常识数据集中的非常识实例
通过对 CommonsenseQA 和 CommonsenseQA 2.0 数据集的专家标注,论文估计非常识实例的比例分别为 27% 和 56%。这表明,现有常识数据集中混入了大量的非常识知识,这对 LLM 常识推理能力的评估产生了显著影响。特别是在这些数据集中,大量的百科和专业知识使得模型能够通过记忆和检索提供正确答案,而非通过真正的常识推理能力得出结论。因此,当前的评估方法可能高估了 LLM 在常识推理方面的表现。
为了提高常识数据集的质量,我尝试提出以下建议:首先,在数据集构建过程中,应更加严格地筛选常识实例,确保数据集中的知识符合常识的定义。其次还应引入更多多样性,涵盖不同文化和社会背景的常识知识,从而提高模型在不同场景下的适应性。最后,可以结合专家标注与众包标注的方法,以提高数据标注的准确性和一致性。
七、LLM 在常识与引用知识上的表现
通过对论文实验部分的分析,明显看出 LLM 在常识知识与引用知识上的表现存在显著差异。实验中使用了四个不同的 LLM,包括 Gemini-Pro、ChatGPT、LLaMa2-7B 和 Mixtral-8x7B,对 CommonsenseQA 和 CommonsenseQA 2.0 数据集中的常识和引用知识子集进行了测试。结果显示,LLM 在引用知识子集上的表现显著优于常识知识子集,这说明 LLM 更擅长记忆和检索信息,而在真正需要推理能力的常识知识任务中表现不足。例如,在涉及专业知识的问题上,LLM 的表现较为出色,但在需要推理和灵活应用常识的问题上,表现明显不尽如人意。这种差异进一步揭示了 LLM 在处理常识推理任务时的局限性。
实验表明,LLM 在常识推理过程中缺乏对上下文的深度理解,导致推理过程缺乏逻辑性和一致性。例如,对于一些需要理解因果关系的问题,LLM 往往只能基于数据中常见的模式进行猜测,而无法真正理解事件之间的逻辑联系。这表明,现有 LLM 在常识推理方面的能力仍有较大提升空间,亟需通过改进模型结构和训练方法来提高其推理能力。
八、常识推理中的理解与记忆
通过对论文结果的分析进一步指出,尽管 LLM 在某些常识任务中表现出色,但这些结果大多依赖于模型对训练数据中模式和细节的记忆,而非真正的理解和推理。论文中提到,LLM 在训练过程中通过大量数据学习语言的统计模式,这些模式指的是语言中高频出现的词汇和句式结构的组合。例如,模型可能学会了某些常见的因果关系或描述性语言结构,从而在类似情境中给出看似合理的回答。然而,这种能力更多地依赖于对数据中高频模式的机械记忆,而非对问题背后逻辑关系的深层理解。
例如,对于一些需要常识推理的问题,LLM 可能通过关联不同数据源中的相关信息,利用频繁共现的模式来得出答案,但本质上仍然基于模式匹配而非真正的逻辑推理或理解。这种推理方式使得模型在面对训练数据中未曾出现过的新场景时表现出明显的不足,尤其是在需要创新性和灵活应用常识的情况下,LLM 的表现显得生硬而缺乏适应性。因此,尽管 LLM 的表现看似令人印象深刻,但在涉及常识性推理时,它们并未展现出真正的理解能力。模型通过关联已有知识中的信息来做出预测,但这并不意味着它具备了常识推理的能力,而更多地是对数据的机械记忆和匹配。
要实现真正的常识推理,模型需要具备从经验中归纳、总结和推测的能力,而不仅仅是对已有数据的记忆。这需要在模型的结构设计和训练方法上进行创新,例如引入符号逻辑推理模块,结合统计学习的优势,使得模型在处理常识推理问题时,既能够学习高频模式,又能进行逻辑推理和深层理解。
九、未来技术方向
通过对论文讨论部分的解读与分析,我尝试提出了未来改进常识推理研究的几个方向。首先,需要开发更为有效的常识知识获取方法,以确保所收集的数据集能够真正反映人类的常识知识,而非混入大量非常识知识。其次,需要构建更加精细化和高质量的常识数据集,明确区分常识与非常识知识,以便准确评估 LLM 的常识推理能力。另外还需改进 LLM 的训练方法,使其不仅能够记忆和检索信息,还能够真正理解和运用常识进行推理,这可能需要结合符号推理与神经网络的方法,以弥合 LLM 在常识推理中的不足。
也许未来研究更应致力于开发新的评估指标,以全面衡量 LLM 的常识推理能力。目前的评估方法往往偏重于模型在特定任务上的表现,忽略了常识推理的深度与灵活性。因此,设计一套能够衡量模型在复杂情境下推理能力的评估体系显得尤为重要。评估指标可以包括模型在逻辑性、一致性、跨领域推理能力等方面的表现,具体方法如基于推理链的分析、因果推理测试以及应对新颖问题的灵活性评估等。这样的评估体系应综合考虑模型的逻辑性、一致性及跨领域推理能力,从而更全面地反映模型在常识推理中的表现。
最后,结合人类反馈的强化学习可能是提升 LLM 常识推理能力的有效手段之一。通过让模型与人类进行持续交互并获得反馈,模型可以逐步修正自身的推理过程,增强其对常识的理解和应用能力。这种基于人类交互的学习方式能够帮助模型更好地适应复杂多变的现实环境,提升其推理的准确性和可靠性。
十、结论
通过对 Quyet V. Do 等人的论文的深入分析,我尝试解释了当前常识数据集可能存在的质量问题,并提出了解决这些问题的路径。未来的常识推理研究应当更加注重数据集的质量控制和常识定义的清晰性,从而推动人工智能系统在理解和推理方面取得更大的进展。通过改进数据集与模型,也许我们能够更接近于构建出具备真正常识推理能力的智能系统,使其更好地服务于人类的日常生活与工作场景。未来也许必须要通过跨学科的合作,将心理学、认知科学等领域的研究成果引入到常识推理的建模过程中,从而提升人工智能系统的认知能力。常识推理的研究不仅是人工智能领域中的一项重要挑战,也是实现机器智能与人类智能结合的关键路径。
参考论文:arXiv:2411.03964v1 [cs.CL] 6 Nov 2024
十一、最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】