Datawhale AI 夏令营 AI+逻辑推理 Task01总结

一、题目以及背景介绍

赛事链接:http://competition.sais.com.cn/competitionDetail/532231/format

题目内容:通过做选择题的形式验证大语言模型的推理能力。

二、逻辑推理的背景介绍

  传统的逻辑推理主要基于以下的情况组成:

①知识表示。

逻辑推理始于将知识转化为计算机可以理解和操作的形式。这里有几个常用的逻辑系统:

  • 一阶逻辑:这是一种强大的语言,用于表达个体、属性及它们之间的关系,如“所有猫都有四条腿”。

  • 命题逻辑:简单直观,适用于描述基本的真伪陈述,如“A是真”。

  • 模态逻辑:引入了“可能”和“必然”的概念,帮助我们处理不确定性和可能性。

  • 描述逻辑:专为构建知识图谱设计,有助于定义概念、类别和它们之间的联系,非常适合语义网。

②推理引擎。

推理引擎是执行逻辑推理的核心组件,它通过不同的方式分析知识并得出结论:

  • 前向链式推理:从已知事实出发,一步步应用规则,直至得出结论。

  • 后向链式推理:从目标逆向寻找支持其成立的依据,类似侦探破案。

  • 溯因推理:在直接证据不足时,通过最合理解释填补空白。

  • 非单调推理:随着新信息的加入,允许之前的结论被修正或推翻。

③应对不确定的信息。有以下的应对策略:

  • 概率逻辑:结合概率理论,为不确定性提供数学基础。

  • 模糊逻辑:允许不同程度的真值,超越了非黑即白的二元思维。

  • 缺省逻辑:在信息缺失时,基于合理假设做出最佳推测。

④算法与优化。

高效的推理需要优化算法,以下是一些常见的技术:

   a.单元传播:在处理布尔逻辑问题时,一旦确定某个变量的状态,立即更新所有相关条件。

   b.冲突驱动的子句学习(CDCL):从冲突中提炼新规则,避免重复错误。

   c.约束传播:通过缩小变量的取值范围,快速排除不可能选项,加速搜索过程。

三、当前的方法

A.机器学习方法:

我们知道,机器学习的主要流程包括:数据处理、建模分析、模型训练、验证迭代。

1.对于逻辑推理而言,阅读题目则类比于自然语言理解,将题目和选项转化为数值向量,这里可以提供的选择方法例如词袋模型、TF-IDF 或者词嵌入等。

【注:①词袋模型:将文章以词为基础进行切分,将每一篇文章看成一袋子的单词(即单词集合,忽略顺序),将文章表示为一个向量,每一维代表一个单词,权重为重要程度

TF-IDF用于计算权重,公式为:

TF-IDF(t,d) = TF(t,d) *IDF(t)

其中TF(t,d)为单词d在文中出现的频率

IDF(t)用来衡量单词t对表达语义的重要性,表示为:

IDF(t)=\log{\frac{a}{b+1}}

其中a=文章总数,b=包含单词t的文章总数。

②词嵌入,将词向量化的模型总称。】

2. 数据选择:给定已知正确答案的题目以及其推理过程,学习其内容。

3.模型选择:对于选择题而言,常见的有

决策树、支持向量机、随机森林、逻辑回归、神经网络等。

4.提高推理性能的策略:

增强学习:使用增强学习来奖励模型在逻辑上合理的选择,这样模型不仅学习到数据中的模式,还能学会基于逻辑原则做出选择。

逻辑规则嵌入:在模型中添加逻辑规则,例如,如果模型是神经网络,可以考虑使用神经符号集成(Neuro-Symbolic Integration)技术,其中逻辑规则被编码为网络的一部分。

元学习:让模型学习如何学习(对每一道题目按照推理方法进行类别,给出不同的Task(切分为train和test)),通过在多个相关任务上训练,使模型能够更快地适应新类型的选择题。从而达到进一步优化

B.深度学习的方法:

1.在模型的架构上的不同:

对文本信息的理解:

循环神经网络(RNN):主要用于对题目自然语言理解的过程。

卷积神经网络(CNN):由卷积层、池化层、全连接层组成,卷积层能够检测局部模式,对于短文本和固定长度的输入有效。

变换器(Transformers):重点在于自注意力机制可以解决上下文的理解问题。如BERT、RoBERTa等预训练模型,它们利用自注意力机制处理序列数据,能够高效地处理长文本和理解上下文。

检索推理的信息:

记忆增强网络:如记忆网络(Memory Networks)和端到端记忆网络(End-to-End Memory Networks),它们可以在内部存储和检索信息,有助于逻辑推理。

2.多选题处理: 将选择题设计为多标签分类问题,其中每个选项都是一个潜在的标签。模型需要预测每个选项的得分或概率,最终选择得分最高的选项作为答案。

3.训练: 利用标注过的数据集进行训练,目标是最小化损失函数,通常是交叉熵损失,以提高模型在预测正确答案时的准确性。

4.推理阶段: 在测试或应用阶段,模型接收新的问题和选项,将其转换为相应的向量表示,然后通过模型进行预测,得到每个选项的得分或概率分布,最后选择得分最高的选项作为答案。

5.后处理和解释: 可能需要额外的步骤来解释模型的决策,例如通过注意力权重来了解模型在做决策时关注了哪些部分的文本。

6.集成学习: 结合多个模型的预测结果,通过投票或加权平均的方式提高最终预测的准确率。

7.持续学习和调整: 如果可用,可以使用增量学习或在线学习方法,使模型能够随着更多数据的到来而不断改进。

四、浅谈Baseline

对于给的Baseline而言,我们发现它并不需要给的训练数据而是直接输出,是因为它所背后的做题逻辑为通义千问给的大模型训练模型,因此直接调用相关模型即可。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追逐着明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值