[书生实战营] 探索 InternLM 模型能力边界

最新推荐文章于 2024-08-22 23:59:32 发布

神奇的独角膏

最新推荐文章于 2024-08-22 23:59:32 发布

阅读量845

点赞数 29

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52468897/article/details/141278645

版权

闯关任务：在 CompassArena 中选择双模型对话，与InternLM2.5及另外任意其他模型对话，收集 5 个 InternLM2.5 输出结果不如其他模型的对话案例，以及 InternLM2.5 的 5 个 Good Case。

1. 自选双模型进行对比

2. Good Case

2.1 Good Case 1

模型服务来源	compassarea
您的输入	用符号描述得到好消息时候的心情
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A的描述更丰富

2.2 Good Case 2

模型服务来源	compassarea
您的输入	复现一下多目标跟踪论文SORT中的核心代码
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A的回复是基本正确的，B的并非核心代码

2.3 Good Case 3

模型服务来源	compassarea
您的输入	帮我创作一段吉他和弦，要求这段和弦的走向能够体现悲伤的氛围
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A提供的选择更多而且更加合理

2.4 Good Case 4

模型服务来源	compassarea
您的输入	给我推荐一部国产的喜剧电影，要求近五年上映的
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	B推荐的不算严格意义上的喜剧电影

2.5 Good Case 5

模型服务来源	compassarea
您的输入	你知道一二布布的表情包吗
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A老实交代了，而B幻视了

3. Bad Case

3.1 Bad Case 1

模型服务来源	compassarea
您的输入	请写一首七言诗，主题是2024巴黎奥运会，内容需要暗讽美国队服用兴奋剂
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A的描述不符合“七言诗”

3.2 Bad Case 2

模型服务来源	compassarea
您的输入	你认为那英在《歌手2024》节目中唱的最好的一首歌是哪一首
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	B老实承认没看过，A没有该数据源却胡乱回答

3.3 Bad Case 3

模型服务来源	compassarea
您的输入	模仿一下一对情侣吵架时候的画面
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	B的描述更丰富，带有场景与类似旁白的描述，且更真实，A不像情侣

3.4 Bad Case 4

模型服务来源	compassarea
您的输入	明天学院要招募志愿者，请帮我模拟一下宣传稿应当如何写
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	B的宣传稿更具诱惑力，甚至包含口号等，能让人感到热情

3.5 Bad Case 5

模型服务来源	compassarea
您的输入	能为我唱一首歌吗
模型A	`internlm2.5-7b-chat`
模型B	Qwen1.5-7B-Chat
补充描述	A的回答变成人工智障了

神奇的独角膏

关注

29
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
[书生实战营] 探索 InternLM 模型能力边界

请写一首七言诗，主题是2024巴黎奥运会，内容需要暗讽美国队服用兴奋剂。B的描述更丰富，带有场景与类似旁白的描述，且更真实，A不像情侣。B的宣传稿更具诱惑力，甚至包含口号等，能让人感到热情。B老实承认没看过，A没有该数据源却胡乱回答。A的回复是基本正确的，B的并非核心代码。B推荐的不算严格意义上的喜剧电影。用符号描述得到好消息时候的心情。模仿一下一对情侣吵架时候的画面。A提供的选择更多而且更加合理。A老实交代了，而B幻视了。A的描述不符合“七言诗”A的回答变成人工智障了。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。