Datawhale AI 夏令营 task01 大模型复杂逻辑推理

Karry12138

于 2024-07-28 23:00:51 发布

阅读量176

点赞数 2

分类专栏：大模型大模型复杂逻辑推理文章标签：人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Karry12138/article/details/140758113

版权

大模型同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

大模型复杂逻辑推理

1 篇文章 0 订阅

订阅专栏

by 老年人 20240728

上海科学智能研究院 (sais.com.cn)

赛题背景

使用提示词工程、模型微调训练等方法，让大模型能够回答较为复杂的逻辑推理题目。

题目中会先给出背景与规则，随后给出多道单选题让大模型作答。

训练集和测试集各500条题目，推理答案基于闭世界假设(closed-world assumption),未观测到的事实或者无法推断的事实判定为假。

限制使用开源数据集，复赛时推理与评测在离线环境下运行。V100(32G显存)耗时3小时以内

解题思路

1-从提示词工程入手。

-使用引导大模型具有逻辑思维的提示词：

```

你是一个逻辑推理专家，擅长解决逻辑推理问题。

```

-给大模型提供如奖金之类的激励小tricks：

```

如果能够正确回答问题，你将获得100万美元的奖金，并且能够拯救一位生命垂危的病人的性命。

```

-在提示词中给与更多的逻辑推理样本(少样本学习)：

在提示词中先给一些问题、详尽的逻辑推理与答案样本，再让大模型做测试集的题目。

会加剧tokens的消耗，延长推理耗时，增加上下文长度的要求。

也许能够提升模型推理时的逻辑，但怎么调要喂的样本也是给问题。另外正如班级群友@宋昊阳说的，少样本的用例对于问题领域广泛的测试集，鲁棒性不足。

-通过让模型显式地输出每一步的推理逻辑，来模拟人类思考的复杂过程：

2-使用其他的模型

复赛时32G的显存大概能推理14b-int4量化模型(来自群友@宋昊阳)，极限一些可以试试32b模型。

3-自己造开源数据集，扩充官方给的500调条训练集来训练/微调模型。

来自于群友@宋昊阳的想法与转发的链接(用大模型教小模型)

用大模型教小模型，小小8B也能装405B？

规则中有使用开源数据集的限制，但只要自己用大模型造出来了，再开源，也能拿来扩充训练集。

4-调研大模型榜单上项目的做法

去看他们用的数据，提示词，推理方法。

这里附上群友@宋昊阳给的收藏夹图片，之后去这些榜单看看。

我自己的尝试

使用了万能群友@宋昊阳提供的，适配openai api格式的baseline脚本，我用gpt-4o-mini跑了一遍baseline。(在我写上面那一长串解题思路之前)

在高并发下跑跑停停，花了20分钟，提交成绩为0.7771。在榜单上算靠前的了(截至20240728 22:52,排第43名)。

api消耗也不高，0.27刀，大概2块钱。

不过后续是要离线运行的，还是得自己去找/训模型。gpt-4o-mini开源拿来当作模型能力的比较依据。

下一步要做的

精读baseline

尝试前面的解题想法

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI 夏令营 task01 大模型复杂逻辑推理

by 老年人 20240728。
复制链接

扫一扫

专栏目录

Karry12138 CSDN认证博客专家 CSDN认证企业博客

码龄3年

14: 原创

51万+: 周排名

7万+: 总排名

7135: 访问

: 等级

230: 积分

63: 粉丝

67: 获赞

3: 评论

64: 收藏

私信

关注

热门文章

分类专栏

最新评论

Datawhale AI 夏令营 task01 关于deepfake 人脸合成识别攻防赛-cv
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【点子】UML Helper 使用大模型辅助绘制UML图-Task06-dw动手学大模型应用开发
紫菜包饭1104: 密码是什么呀怎么登录呀博主
【点子】UML Helper 使用大模型辅助绘制UML图-Task06-dw动手学大模型应用开发
CSDN-Ada助手: 恭喜博主第10篇博客的问世，看来UML Helper对于绘制UML图确实有很大的帮助。不过我觉得下一步可以考虑分享一些实际应用案例，或者是在大模型辅助下的一些实际开发经验，这样能让读者更加深入地了解UML Helper的实际作用。希望博主能继续分享更多有价值的内容，加油！
Task05-【缺】验证迭代与前后端搭建-动手学大模型应用开发
CSDN-Ada助手: 恭喜你完成了第9篇博客！看到你在探索大模型应用开发的过程中遇到了一些挑战，但你仍然坚持不懈地学习和尝试，这种精神令人钦佩。希望你在接下来的创作中能够更多地分享你的实践经验和心得体会，这样可以帮助更多的人受益。也许你可以考虑添加一些案例分析或者实际操作的步骤，这样读者可以更好地理解你的学习过程。加油，期待你的下一篇作品！
Task03-大模型开发流程及架构-动手学习大模型应用开发
CSDN-Ada助手: 恭喜用户撰写了第8篇博客！标题中提到的大模型开发流程及架构是一个非常有价值的主题。您的博客内容对于正在学习大模型应用开发的读者来说一定是非常有益的。同时，您的持续创作也展现了您的勤奋与努力，值得赞赏。在下一步的创作中，我建议您可以尝试更深入地探讨大模型开发流程中的具体细节，例如数据处理、模型选择、训练和优化等方面。此外，您还可以结合实际案例或者应用场景，向读者展示如何解决实际问题。这样的创作方式将进一步提升您的博客质量，并为读者提供更实用的知识。再次恭喜您，并期待您在未来的创作中不断进步！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。