[书生实战营] 探索 InternLM 模型能力边界

  • 闯关任务:在 CompassArena 中选择双模型对话,与InternLM2.5及另外任意其他模型对话,收集 5 个 InternLM2.5 输出结果不如其他模型的对话案例,以及 InternLM2.5 的 5 个 Good Case。

1. 自选双模型进行对比

2. Good Case

2.1 Good Case 1

模型服务来源

compassarea

您的输入

用符号描述得到好消息时候的心情

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A的描述更丰富

2.2 Good Case 2

模型服务来源

compassarea

您的输入

复现一下多目标跟踪论文SORT中的核心代码

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A的回复是基本正确的,B的并非核心代码

 

2.3 Good Case 3

模型服务来源

compassarea

您的输入

帮我创作一段吉他和弦,要求这段和弦的走向能够体现悲伤的氛围

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A提供的选择更多而且更加合理

 

2.4 Good Case 4

模型服务来源

compassarea

您的输入

给我推荐一部国产的喜剧电影,要求近五年上映的

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

B推荐的不算严格意义上的喜剧电影

 

2.5 Good Case 5

模型服务来源

compassarea

您的输入

你知道一二布布的表情包吗

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A老实交代了,而B幻视了

 

 

3. Bad Case

3.1 Bad Case 1

模型服务来源

compassarea

您的输入

请写一首七言诗,主题是2024巴黎奥运会,内容需要暗讽美国队服用兴奋剂

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A的描述不符合“七言诗”

3.2 Bad Case 2

模型服务来源

compassarea

您的输入

你认为那英在《歌手2024》节目中唱的最好的一首歌是哪一首

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

B老实承认没看过,A没有该数据源却胡乱回答

3.3 Bad Case 3

模型服务来源

compassarea

您的输入

模仿一下一对情侣吵架时候的画面

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

B的描述更丰富,带有场景与类似旁白的描述,且更真实,A不像情侣

3.4 Bad Case 4

模型服务来源

compassarea

您的输入

明天学院要招募志愿者,请帮我模拟一下宣传稿应当如何写

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

B的宣传稿更具诱惑力,甚至包含口号等,能让人感到热情

3.5 Bad Case 5

模型服务来源

compassarea

您的输入

能为我唱一首歌吗

模型A

internlm2.5-7b-chat

模型B

Qwen1.5-7B-Chat

补充描述

A的回答变成人工智障了

 

  • 29
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值