Datawhale AI 夏令营 task01 大模型复杂逻辑推理

by 老年人 20240728

上海科学智能研究院 (sais.com.cn)

赛题背景

使用提示词工程、模型微调训练等方法,让大模型能够回答较为复杂的逻辑推理题目。

题目中会先给出背景与规则,随后给出多道单选题让大模型作答。

训练集和测试集各500条题目,推理答案基于闭世界假设(closed-world assumption),未观测到的事实或者无法推断的事实判定为假。

限制使用开源数据集,复赛时推理与评测在离线环境下运行。V100(32G显存)耗时3小时以内

解题思路

1-从提示词工程入手。

-使用引导大模型具有逻辑思维的提示词:

```

你是一个逻辑推理专家,擅长解决逻辑推理问题。

```

-给大模型提供如奖金之类的激励小tricks:

```

如果能够正确回答问题,你将获得100万美元的奖金,并且能够拯救一位生命垂危的病人的性命。

```

-在提示词中给与更多的逻辑推理样本(少样本学习):

在提示词中先给一些问题、详尽的逻辑推理与答案样本,再让大模型做测试集的题目。

会加剧tokens的消耗,延长推理耗时,增加上下文长度的要求。

也许能够提升模型推理时的逻辑,但怎么调要喂的样本也是给问题。另外正如班级群友@宋昊阳说的,少样本的用例对于问题领域广泛的测试集,鲁棒性不足。

-通过让模型显式地输出每一步的推理逻辑,来模拟人类思考的复杂过程:

2-使用其他的模型

复赛时32G的显存大概能推理14b-int4量化模型(来自群友@宋昊阳),极限一些可以试试32b模型。

3-自己造开源数据集,扩充官方给的500调条训练集来训练/微调模型。

来自于群友@宋昊阳的想法与转发的链接(用大模型教小模型)

用大模型教小模型,小小8B也能装405B?

规则中有使用开源数据集的限制,但只要自己用大模型造出来了,再开源,也能拿来扩充训练集。

4-调研大模型榜单上项目的做法

去看他们用的数据,提示词,推理方法。

这里附上群友@宋昊阳给的收藏夹图片,之后去这些榜单看看。

我自己的尝试

使用了万能群友@宋昊阳提供的,适配openai api格式的baseline脚本,我用gpt-4o-mini跑了一遍baseline。(在我写上面那一长串解题思路之前)

在高并发下跑跑停停,花了20分钟,提交成绩为0.7771。在榜单上算靠前的了(截至20240728 22:52,排第43名)。

api消耗也不高,0.27刀,大概2块钱。

不过后续是要离线运行的,还是得自己去找/训模型。gpt-4o-mini开源拿来当作模型能力的比较依据。

下一步要做的

精读baseline

尝试前面的解题想法

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值