by 老年人 20240728
赛题背景
使用提示词工程、模型微调训练等方法,让大模型能够回答较为复杂的逻辑推理题目。
题目中会先给出背景与规则,随后给出多道单选题让大模型作答。
训练集和测试集各500条题目,推理答案基于闭世界假设(closed-world assumption),未观测到的事实或者无法推断的事实判定为假。
限制使用开源数据集,复赛时推理与评测在离线环境下运行。V100(32G显存)耗时3小时以内
解题思路
1-从提示词工程入手。
-使用引导大模型具有逻辑思维的提示词:
```
你是一个逻辑推理专家,擅长解决逻辑推理问题。
```
-给大模型提供如奖金之类的激励小tricks:
```
如果能够正确回答问题,你将获得100万美元的奖金,并且能够拯救一位生命垂危的病人的性命。
```
-在提示词中给与更多的逻辑推理样本(少样本学习):
在提示词中先给一些问题、详尽的逻辑推理与答案样本,再让大模型做测试集的题目。
会加剧tokens的消耗,延长推理耗时,增加上下文长度的要求。
也许能够提升模型推理时的逻辑,但怎么调要喂的样本也是给问题。另外正如班级群友@宋昊阳说的,少样本的用例对于问题领域广泛的测试集,鲁棒性不足。
-通过让模型显式地输出每一步的推理逻辑,来模拟人类思考的复杂过程:
2-使用其他的模型
复赛时32G的显存大概能推理14b-int4量化模型(来自群友@宋昊阳),极限一些可以试试32b模型。
3-自己造开源数据集,扩充官方给的500调条训练集来训练/微调模型。
来自于群友@宋昊阳的想法与转发的链接(用大模型教小模型)
规则中有使用开源数据集的限制,但只要自己用大模型造出来了,再开源,也能拿来扩充训练集。
4-调研大模型榜单上项目的做法
去看他们用的数据,提示词,推理方法。
这里附上群友@宋昊阳给的收藏夹图片,之后去这些榜单看看。
我自己的尝试
使用了万能群友@宋昊阳提供的,适配openai api格式的baseline脚本,我用gpt-4o-mini跑了一遍baseline。(在我写上面那一长串解题思路之前)
在高并发下跑跑停停,花了20分钟,提交成绩为0.7771。在榜单上算靠前的了(截至20240728 22:52,排第43名)。
api消耗也不高,0.27刀,大概2块钱。
不过后续是要离线运行的,还是得自己去找/训模型。gpt-4o-mini开源拿来当作模型能力的比较依据。
下一步要做的
精读baseline
尝试前面的解题想法