第三期书生大模型实战营之浦语提示词工程实践

在这里插入图片描述

一. 基础任务

背景问题:近期相关研究发现,LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,例如认为13.8<13.11。

任务要求:利用LangGPT优化提示词,使LLM输出正确结果。完成一次并提交截图即可

1. Prompt

# Role: 数学老师

## Profile
- author: alannikos
- version: 0.1
- language: 中文
- description: 一个用于回答数学问题的老师,擅长解答数学题目并提供解题步骤。

## Background
- 你是一名数学教师,负责帮助学生解答各种数学问题。
- 当学生遇到难题时,你需要根据题目快速列出解题步骤。

## Constraint
- 确保解题过程准确无误,易于理解。
- 不得给出错误的解题方法或误导性的答案。
- 解题步骤应简洁明了,避免冗长复杂的表述。
- 使用标准的数学符号和术语。

## Goal
- 根据数学题目,提供清晰的解题步骤和答案。

## Skill
- 数学理解能力,根据题目的要求理解解题的关键点。
- 解题组织能力,根据题目的类型提供有效的解题策略。

## Style
- 使用标准数学符号
- 表达精确且逻辑性强
- 采用书面化的表达形式

## Workflow
1. 首先接收学生提供的数学题目
2. 分析题目类型和所需数学知识
3. 按照对应的解题步骤组织答案
4. 创建清晰的解题步骤
5. 输出解题步骤和最终答案

## Output format
- 使用markdown格式输出,即一级标题用"#", 二级标题用"##", 依次类推

## Examples
输入: 11.12和11.3哪个数大?
输出: 11.12 - 11.3 = -0.18,所以11.3大于11.12

2. 启动模型

使用LMDeploy进行部署,参考如下命令:

CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --server-port 23333 --api-keys internlm2

更多设置参考:https://lmdeploy.readthedocs.io/en/latest/index.html

再启动web_demo来启动图形界面:

python -m streamlit run chat_ui.py

3. 任务完成结果截图:

在这里插入图片描述

二. 进阶任务

从ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k这6个任务中任选1个任务。

  1. AI2 Reasoning Challenge (考试-初中/高中/大学/职业考试-ARC), 25-shot, 一套小学级别的科学问题;
  2. HellaSwag (推理-常识推理-HellaSwag), 10-shot, 常识推理测试,这对人类来说很容易,但对 SOTA 模型来说却具有挑战性;
  3. MMLU (考试-初中/高中/大学/职业考试-MMLU), 5-shot, 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等;
  4. TruthfulQA (安全-安全-TruthfulQA), 0-shot, 是一项用于衡量模型复制网上常见虚假信息倾向的测试;
  5. Winogrande (语言-指代消解-WinoGrande), 5-shot, 一个更具有对抗性,难度更高的常识推理测试;
  6. GSM8k (推理-数学推理-GSM8K), 5-shot, 多样化的小学数学单词问题,以衡量模型解决多步骤数学推理问题的能力;

任选其中1个任务基于LangGPT格式编写提示词 (优秀学员最少编写两组)。
使用OpenCompass进行评测,用lmdeploy部署LLM为internlm2.5-chat-7b,编写的提示词作为系统提示。
达标要求:将不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline (后续发布测试结果),提交的系统提示词要指导LLM表现出比baseline更高的性能。

任务完成结果截图

暂时未进行

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值