一、题目以及背景介绍
赛事链接:http://competition.sais.com.cn/competitionDetail/532231/format
题目内容:通过做选择题的形式验证大语言模型的推理能力。
二、逻辑推理的背景介绍
传统的逻辑推理主要基于以下的情况组成:
①知识表示。
逻辑推理始于将知识转化为计算机可以理解和操作的形式。这里有几个常用的逻辑系统:
-
一阶逻辑:这是一种强大的语言,用于表达个体、属性及它们之间的关系,如“所有猫都有四条腿”。
-
命题逻辑:简单直观,适用于描述基本的真伪陈述,如“A是真”。
-
模态逻辑:引入了“可能”和“必然”的概念,帮助我们处理不确定性和可能性。
-
描述逻辑:专为构建知识图谱设计,有助于定义概念、类别和它们之间的联系,非常适合语义网。
②推理引擎。
推理引擎是执行逻辑推理的核心组件,它通过不同的方式分析知识并得出结论:
-
前向链式推理:从已知事实出发,一步步应用规则,直至得出结论。
-
后向链式推理:从目标逆向寻找支持其成立的依据,类似侦探破案。
-
溯因推理:在直接证据不足时,通过最合理解释填补空白。
-
非单调推理:随着新信息的加入,允许之前的结论被修正或推翻。
③应对不确定的信息。有以下的应对策略:
-
概率逻辑:结合概率理论,为不确定性提供数学基础。
-
模糊逻辑:允许不同程度的真值,超越了非黑即白的二元思维。
-
缺省逻辑:在信息缺失时,基于合理假设做出最佳推测。
④算法与优化。
高效的推理需要优化算法,以下是一些常见的技术:
a.单元传播:在处理布尔逻辑问题时,一旦确定某个变量的状态,立即更新所有相关条件。
b.冲突驱动的子句学习(CDCL):从冲突中提炼新规则,避免重复错误。
c.约束传播:通过缩小变量的取值范围,快速排除不可能选项,加速搜索过程。
三、当前的方法
A.机器学习方法:
我们知道,机器学习的主要流程包括:数据处理、建模分析、模型训练、验证迭代。
1.对于逻辑推理而言,阅读题目则类比于自然语言理解,将题目和选项转化为数值向量,这里可以提供的选择方法例如词袋模型、TF-IDF 或者词嵌入等。
【注:①词袋模型:将文章以词为基础进行切分,将每一篇文章看成一袋子的单词(即单词集合,忽略顺序),将文章表示为一个向量,每一维代表一个单词,权重为重要程度
TF-IDF用于计算权重,公式为:
其中TF(t,d)为单词d在文中出现的频率
IDF(t)用来衡量单词t对表达语义的重要性,表示为:
其中a=文章总数,b=包含单词t的文章总数。
②词嵌入,将词向量化的模型总称。】
2. 数据选择:给定已知正确答案的题目以及其推理过程,学习其内容。
3.模型选择:对于选择题而言,常见的有
决策树、支持向量机、随机森林、逻辑回归、神经网络等。
4.提高推理性能的策略:
增强学习:使用增强学习来奖励模型在逻辑上合理的选择,这样模型不仅学习到数据中的模式,还能学会基于逻辑原则做出选择。
逻辑规则嵌入:在模型中添加逻辑规则,例如,如果模型是神经网络,可以考虑使用神经符号集成(Neuro-Symbolic Integration)技术,其中逻辑规则被编码为网络的一部分。
元学习:让模型学习如何学习(对每一道题目按照推理方法进行类别,给出不同的Task(切分为train和test)),通过在多个相关任务上训练,使模型能够更快地适应新类型的选择题。从而达到进一步优化
B.深度学习的方法:
1.在模型的架构上的不同:
对文本信息的理解:
循环神经网络(RNN):主要用于对题目自然语言理解的过程。
卷积神经网络(CNN):由卷积层、池化层、全连接层组成,卷积层能够检测局部模式,对于短文本和固定长度的输入有效。
变换器(Transformers):重点在于自注意力机制可以解决上下文的理解问题。如BERT、RoBERTa等预训练模型,它们利用自注意力机制处理序列数据,能够高效地处理长文本和理解上下文。
检索推理的信息:
记忆增强网络:如记忆网络(Memory Networks)和端到端记忆网络(End-to-End Memory Networks),它们可以在内部存储和检索信息,有助于逻辑推理。
2.多选题处理: 将选择题设计为多标签分类问题,其中每个选项都是一个潜在的标签。模型需要预测每个选项的得分或概率,最终选择得分最高的选项作为答案。
3.训练: 利用标注过的数据集进行训练,目标是最小化损失函数,通常是交叉熵损失,以提高模型在预测正确答案时的准确性。
4.推理阶段: 在测试或应用阶段,模型接收新的问题和选项,将其转换为相应的向量表示,然后通过模型进行预测,得到每个选项的得分或概率分布,最后选择得分最高的选项作为答案。
5.后处理和解释: 可能需要额外的步骤来解释模型的决策,例如通过注意力权重来了解模型在做决策时关注了哪些部分的文本。
6.集成学习: 结合多个模型的预测结果,通过投票或加权平均的方式提高最终预测的准确率。
7.持续学习和调整: 如果可用,可以使用增量学习或在线学习方法,使模型能够随着更多数据的到来而不断改进。
四、浅谈Baseline
对于给的Baseline而言,我们发现它并不需要给的训练数据而是直接输出,是因为它所背后的做题逻辑为通义千问给的大模型训练模型,因此直接调用相关模型即可。