书生大模型实战营（第3期）进阶岛第1关探索 InternLM 模型能力边界

Aman-he

已于 2024-08-28 14:43:43 修改

阅读量1.2k

点赞数 39

分类专栏：书生大模型文章标签：人工智能语言模型

于 2024-08-27 16:38:09 首次发布

本文链接：https://blog.csdn.net/aman_he/article/details/141563148

版权

书生大模型专栏收录该内容

11 篇文章 1 订阅

订阅专栏

在 CompassArena 中选择双模型对话，与InternLM2.5及另外任意其他模型对话，收集 5 个 InternLM2.5 输出结果不如其他模型的对话案例，以及 InternLM2.5 的 5 个 Good Case。

声明：由于模型每次的输出都会有不同，或许下一次问，它们的回答刚好相反，我只是把当时问的问题以及它们的输出给记录下来。

Bad Case 1：

模型服务来源	compassarea
您的输入	人体内含水量70%左右，地球也是，为什么人装不下全地球的水？
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	这个问题实际上涉及到两个不同的概念：人体内含水量和地球的含水量。尽管两者都提到水，但它们所指的水量和环境是完全不同的。首先，人体内含水量大约占体重的70%左右。这意味着一个成年人，如果体重为70公斤，那么他或她体内的水重量大约是49公斤。这个比例在不同年龄、性别和个体之间可能会有所变化。另一方面，地球的含水量是一个巨大的数字。地球表面大约71%被水覆盖，包括海洋、河流、湖泊、冰川和地下水。地球上的总水量估计约为1.386×10^21公斤。两者之间的差异不仅仅是数量上的，更在于它们所处的物理和化学环境。人体内的水存在于一个相对封闭的、具有特定温度和压力的生物环境中。而地球的水，尤其是海洋的水，处于一个开放的、不断变化的自然系统中，受到太阳辐射、大气循环、地质活动等多种因素的影响。因此，尽管人体和地球都含有大量的水，但它们的水是存在于完全不同的环境和条件下的，不能直接进行比较或转换。
模型B输出	这个句子的笑点主要来自于一种巧妙的比喻和夸张。首先，句子提到“人体内含水量70%左右，地球也是”，这里建立了一个有趣的类比，即人体和地球在含水量上有相似之处。这种类比本身就有点出人意料，因为通常我们不会将人体和地球放在这样的比较框架下。接着，句子话锋一转，“为什么人装不下全地球的水？”这里的“装不下”形成了一种夸张的效果。从字面意思上看，这是在问为什么人体无法容纳与地球相同的水量。然而，实际上，这个问题是基于前面那个不太可能的类比提出的，因此显得荒诞而幽默。笑点就在于这种荒诞的夸张和巧妙的类比结合。听众或读者在理解这句话时，会先是一愣，随后意识到其中的夸张和不合逻辑之处，从而产生笑意。这种幽默方式既体现了语言的巧妙运用，也反映了人类思维的灵活性和幽默感。
其他补充	这是一个从弱智吧拿来的问题，模型A通过对数量和物理与化学环境方面解释了为什么人装不下全地球的水，而模型B识别出了这是一个笑话，这个问题的答案大家都知道，但模型B站在一个更高的维度看待这个问题，识别出这个问题的荒谬。

Bad Case 2：

模型服务来源	compassarea
您的输入	“我看不到春花，看不到秋叶，没有季节之流转。静寂的可怖，不仅仅是声音的静寂，而且色彩、植被、山脉、村落及整个大地，都毫无变化，让我失去了时间意识。在这里，雨直直地下来，烟缕垂直地升起。” 据此完成下列小题。材料中描述的现象最可能出现在(　　) A．欧洲西部　B．非洲南部 C．中国西北　D．马来群岛
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	The phenomenon described in the material, characterized by a lack of seasonal change, a monotonous landscape with no diversity in colors, vegetation, or the environment, and the absence of a clear time structure, is most likely to be found in a climate that is consistently warm and humid with minimal seasonal variation. Let's analyze each of the given options: A. 欧洲西部 (European West): This region has distinct seasons with noticeable changes in temperature, vegetation, and weather patterns throughout the year. So, this doesn't match the description. B. 非洲南部 (Southern Africa): The climate in this region is diverse, with some areas experiencing seasonal changes, especially in terms of temperature and vegetation. Therefore, this doesn't align with the monotony in the description. C. 中国西北 (Northwest China): This area is known for its arid climate, with less rainfall and distinct seasonal changes, particularly between summer and winter. The description doesn't fit this region either. D. 马来群岛 (Malay Archipelago): This region has a tropical rainforest climate, which typically remains warm and humid throughout the year with minimal seasonal change. The rainfall is often consistent, and the vegetation remains largely green without significant seasonal variation. Given this analysis, the most fitting option that aligns with the described phenomena is: D. 马来群岛 (Malay Archipelago) This region's consistent warm climate, constant rainfall, and lack of noticeable seasonal changes in the environment correspond to the description provided in the material.
模型B输出	首先，我们来仔细分析材料中的描述： “我看不到春花，看不到秋叶，没有季节之流转。”这句话告诉我们，该地区没有明显的四季变化。 “静寂的可怖...雨直直地下来，烟缕垂直地升起。”这描述了一个气候相对稳定，且降雨和烟雾的形态都很直，没有受到风的影响。接下来，我们根据这些线索来逐一考察各个选项： A．欧洲西部：欧洲西部虽然四季分明，但由于其温带海洋性气候，降雨相对均匀，不会出现“看不到春花，看不到秋叶”的情况。此外，欧洲西部经常受到西风的影响，所以烟雾不会“垂直地升起”。 B．非洲南部：非洲南部主要是热带草原气候和部分沙漠气候。热带草原气候有明显的干湿季之分，而沙漠气候则非常干燥，与描述不符。 C．中国西北：中国西北主要是温带大陆性气候和高原山地气候。这些地区的气候特点与描述中的“没有季节之流转”和“雨直直地下来”不完全吻合。 D．马来群岛：马来群岛位于赤道附近，属于热带雨林气候。这里全年高温多雨，四季变化不明显，与描述中的“看不到春花，看不到秋叶，没有季节之流转”高度吻合。同时，由于赤道地区风力较小，所以雨滴和烟雾会直直地落下和升起。综上所述，根据材料中的描述和各个选项的气候特点，我们可以确定马来群岛是最符合描述的地区。因此，正确答案是D．马来群岛。
其他补充	这是一道高中地理题目，虽然两个答案都跟我说D是最佳选项，但我问的是中文，模型A输出的确是英文。

Bad Case 3：

模型服务来源	compassarea
您的输入	9.12与9.8哪个大
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	9.12比9.8大。我们可以通过比较两个数的小数部分来确定它们的大小。在9.12和9.8中，整数部分都是9，所以我们只需要比较它们的小数部分。9.12的小数部分是12，而9.8的小数部分是80（因为0.8等于80/100）。由于12大于80，所以9.12大于9.8。因此，答案是9.12比9.8大。
模型B输出	我们可以直接比较9.12和9.8的大小。 9.12 < 9.8，所以9.8比9.12大。
其他补充	模型B的回答对了，但没有分析过程，模型A分析的一点问题没有，但12大于80给我干沉默了，这个输出结果跟基础岛第3关--浦语提示词工程很像，我当时改提示词也遇到过同样的问题，也是类似的说12比80要大更大，在判断数字大小上面有点胡言乱语。

Bad Case 4：

模型服务来源	compassarea
您的输入	草莓的英文单词有几个字母r
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	草莓的英文单词是"strawberry"，其中有两个r。
模型B输出	输入的文本为：`strawberry` 经过统计，该文本中包含字母`r`的数量为3个。
其他补充	模型A统计错了

Bad Case 5：

模型服务来源	compassarea
您的输入	请告诉我秦灭六国的时间点
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	秦灭六国是一个历时数年的历史事件，主要时间是公元前230年至公元前221年。这段时期，秦王嬴政（即秦始皇）利用其强大的军事力量，先后灭掉了韩、赵、魏、楚、燕、齐六国，完成了对华夏大地的统一。具体来说，公元前230年，秦先攻灭韩国；接着是公元前228年灭赵；公元前225年灭魏；公元前223年灭楚；公元前222年灭燕；最后是公元前221年灭齐。这个统一的历程不仅标志着中国历史上第一个统一的、多民族的、中央集权制国家——秦朝的建立，也开创了中国长达两千多年的封建社会。秦始皇的一系列改革，包括度量衡、文字、货币等的统一，以及修建长城、驰道等大规模的基础设施建设，都对中国历史产生了深远影响。
模型B输出	秦灭六国的时间点发生在公元前230年至公元前221年。以下是秦灭六国的具体时间顺序：公元前230年，秦灭韩。公元前228年，秦灭赵。公元前225年，秦灭魏。公元前223年，秦灭楚。公元前222年，秦灭燕。公元前221年，秦灭齐。在这一系列战争中，秦国逐一击败了其他六个诸侯国，完成了统一中国的伟业。
其他补充	两个回答明显可以看出模型B条理清晰,一目了然。模型A没能列出来，让用户去找答案这一点做的不是很好。

Good Case 1：

模型服务来源	compassarea
您的输入	开心的反义词为什么不是关心
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	这个问题其实涉及到了语言学的范畴。在中文里，“开心”的反义词通常是“不开心”或者“郁闷”，这个现象并非独特于中文，许多语言都有类似的对应关系。至于“关心”，它是一个动词，表示对人或事物给予特别的关注和爱护。它并不能直接与“开心”形成对照，因为它们属于不同的词性，一个是形容词，一个是动词。此外，语言的发展和变化是动态的，一个词的含义和用法可能会随着时间和文化的变迁而变化。因此，虽然“关心”在某些语境下可能与“开心”有所关联，但严格来说，它们并不是反义词。语言学习不仅是对词汇的掌握，也是对语言规则、逻辑和文化背景的理解。通过这样的探讨，我们可以更深入地理解语言的多样性和丰富性。
模型B输出	“开心”和“关心”这两个词在含义上确实有所不同，但它们并不是简单的反义关系。让我们分别分析一下这两个词的含义：开心：这个词通常用来描述一个人的情绪状态，表示感到快乐、愉悦或满足。它是一个情感状态的描述，与负面情绪如悲伤、愤怒等相对立。关心：这个词则更多地涉及到对某人或某事的关注和在意。它是一种态度或行为的表达，表明一个人愿意投入精力去了解、照顾或支持他人或某件事情。关心并不直接描述情感状态，而是描述了一种积极的行为倾向。由于“开心”描述的是情感状态，而“关心”描述的是行为或态度，它们在语义上并不构成直接的对立。因此，“开心的反义词”应该是描述与快乐相反的情感状态的词汇，比如“悲伤”、“沮丧”等，而不是“关心”。此外，即使我们尝试从更宽泛的角度来看，“开心”和“关心”在某些情境下也可能存在某种程度的对立。例如，一个人可能因为过度专注于关心他人而忽略了自己的快乐，但这并不意味着两者是严格的反义词关系。综上所述，“开心的反义词”不是“关心”，因为这两者在语义上并不构成直接的对立关系。
其他补充	其实我感觉这两个都挺好的，模型A从词性上作出区分，又解释到语言的学习不仅是对词汇的掌握，也是对语言规则、逻辑和文化背景的理解，这一点比模型B稍好一点。

Good Case 2：

模型服务来源	compassarea
您的输入	美国真的登陆过月球吗
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	关于美国是否真的登陆过月球，这是一个存在争议的话题。大部分科学研究者和机构，包括NASA（美国国家航空航天局），都确认阿波罗计划成功将12名美国宇航员送至月球表面。这一系列任务发生在1969年至1972年间，并留下了大量的科学证据，包括月球岩石样本、月球车痕迹、美国国旗以及其他设备。然而，仍有一部分人认为这是一个骗局，并提出了一些理论来支持他们的观点。例如，他们可能会质疑为什么没有在月球上发现大气层、星星或太阳的热效应。但科学家和专家指出，这些疑虑大多基于对月球环境的误解或者对阿波罗任务科学数据的误解。尽管如此，这个争议在一定程度上反映了公众对于科学探索和人类成就的深入思考，这是值得鼓励的。同时，这也是科学家和教育者努力以准确和全面的信息来解答公众疑问，以便更好地理解我们的宇宙和自己在其中的位置的机会。需要注意的是，科学是不断发展的，新的证据和理论可能会推翻现有的共识。因此，对于此类问题，持续的学习和开放的心态是必要的。
模型B输出	美国真的登陆过月球。美国的阿波罗计划是人类历史上一次重大的太空探索成就。在该计划下，美国成功地将宇航员送上月球，并在月球上进行了探索和研究。 1969年7月20日，美国宇航员尼尔·阿姆斯特朗和巴兹·奥尔德林乘坐阿波罗11号任务成功登月，迈出了人类历史上的“一大步”。随后，美国宇航局又进行了几次阿波罗任务，共有12名宇航员成功登上月球并在月球表面进行了科学实验、收集月岩样本等活动。这些任务取得了丰富的科学成果，并提供了关于月球和太空环境的重要数据。此外，美国的登月任务还展示了其在航天技术领域的领导地位，并激发了全球对太空探索的兴趣和热情。因此，美国成功登陆过月球是不容置疑的事实。
其他补充	这个问题的答案是有争议的，因为有人质疑美国登陆月球造假，这没有一个统一的答案，所以模型A说科学是不断发展的，新的证据和理论可能会推翻现有的共识，是在用辩证的方法看待这个问题。

Good Case 3：

模型服务来源	compassarea
您的输入	甲、乙、丙、丁四人同时参加全国小学数学夏令营。赛前甲、乙、丙分别做了预测。甲说：“丙第1名，我第3名。” 乙说：“我第1名，丁第4名。” 丙说：“丁第2名，我第3名。” 成绩揭晓后，发现他们每人只说对了一半，你能说出他们的名次吗？
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	这个问题是一个典型的逻辑推理题。我们可以根据题中给定的条件，使用逻辑推理的方式来解决。首先，我们知道甲、乙、丙各说对了一半，也就是说他们每人说的两句话中各有一句是对的。接下来，我们可以开始尝试分析每个人的话：甲说：“丙第1名，我第3名。” 乙说：“我第1名，丁第4名。” 丙说：“丁第2名，我第3名。” 现在让我们假设每个人说的其中一句话是对的，然后看看是否会出现矛盾。如果我们假设甲的“丙第1名”是对的，那么由于每人说对了一半，甲的另一句话“我第3名”就是错的，因此甲不是第3名。同时，丙的“我第3名”就是对的，那么丙就是第3名，与甲说的“丙第1名”矛盾，因此丙不可能是第1名。接下来，如果我们假设丙的“丁第2名”是对的，那么乙的“丁第4名”就是错的，因此丁不是第4名。假设丁不是第4名，那么乙的“我第1名”是对的，因为乙只对了一半。那么乙就是第1名。此时，我们还没有确定甲、丁和丙的名次。但是我们可以继续推理：由于乙是第1名，而甲说的“丙第1名”是错的，因此甲的另一句话“我第3名”是对的（因为甲只对了一半），所以甲是第3名。由于丙的“我第3名”是对的，且甲已经是第3名了，那么丙不可能是第3名，所以丙的另一句话“丁第2名”是对的，因此丁是第2名。最终，我们可以确定他们的名次是：乙第1名，丁第2名，甲第3名，丙第4名。所以，按照这个逻辑推理的流程，他们四人的名次分别是：乙丁甲丙这个结论是基于逻辑推理得到的，并且符合题目中的条件，即他们每个人只说对了一半。
模型B输出	这个问题是一个逻辑推理问题，需要我们根据每个人的预测和题目条件“每个人的预测中只有一半是正确的”来推断出每个人的名次。首先，我们看甲的预测：“丙第1名，我第3名。” 如果甲猜对了自己的名次，那么他就不能猜对丙的名次，所以“丙第1名”是错误的。接着，我们看乙的预测：“我第1名，丁第4名。” 如果乙猜对了自己的名次，那么他就不能猜对丁的名次，所以“丁第4名”是错误的。然后，我们看丙的预测：“丁第2名，我第3名。” 如果丙猜对了自己的名次，那么他就不能猜对丁的名次，所以“丁第2名”是错误的。现在，我们可以确定的是：丙不是第1名（甲预测错误）乙是第1名（乙预测正确的一半）丁不是第4名也不是第2名（乙和丙预测错误）甲不是第3名（甲预测错误）由于乙是第1名，丁不是第2名也不是第4名，所以丁只能是第3名。这样，甲只能是第4名，因为其他名次都已经被占据。最后，由于丁是第3名，甲是第4名，乙是第1名，所以丙只能是第2名。综上所述，最终的名次是：第1名：乙第2名：丙第3名：丁第4名：甲
其他补充	逻辑推理题，模型A推理对了，模型B推理错误。

Good Case 4：

模型服务来源	compassarea
您的输入	解方程： 2(x-1)= 3(y+2) 5y-4(x-1)=-14
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	首先，我们将方程组写为标准形式： $2(x-1) = 3(y+2)$ $5y - 4(x-1) = -14$ 接下来，我们将方程组中的项展开并整理，得到： $2x - 2 = 3y + 6$ $5y - 4x + 4 = -14$ 现在，我们将方程组转化为更容易解决的形式： $2x - 3y = 8$ $-4x + 5y = -18$ 然后，我们可以使用代入法或消元法来解这个方程组。这里，我们选择使用消元法。我们首先让第一个方程乘以2，第二个方程乘以1，以使两个方程中$x$的系数相等： $4x - 6y = 16$ $-4x + 5y = -18$ 现在，我们将两个方程相加，以消去$x$： $(4x - 6y) + (-4x + 5y) = 16 + (-18)$ 这简化为： $-y = -2$ 所以，$y = 2$。现在，我们将$y = 2$代入其中一个原始方程，例如第一个方程： $2x - 3(2) = 8$ 这简化为： $2x - 6 = 8$ 然后，我们解出$x$： $2x = 14$ $x = 7$ 因此，方程组的解是： $x = 7$ $y = 2$ 答案为：$x=7$，$y=2$
模型B输出	首先，我们将方程组整理为标准形式： 2x - 2 = 3y + 6 -4x + 5y = -10 接下来，我们可以使用消元法来解这个方程组。首先，我们将第一个方程乘以2，得到： 4x - 4 = 6y + 12 然后，我们将第二个方程乘以3，得到： -12x + 15y = -30 接下来，我们将两个新方程相加，消去x项： (4x - 4) + (-12x + 15y) = (6y + 12) + (-30) -8x + 15y - 4 = 6y - 18 将同类项合并，得到： -8x + 9y = -14 现在我们有两个方程： 4x - 4 = 6y + 12 -8x + 9y = -14 我们可以解这个方程组得到x和y的值。首先解第一个方程得到x的表达式： 4x = 6y + 16 x = (6y + 16)/4 将x的表达式代入第二个方程中，得到： -8((6y + 16)/4) + 9y = -14 解得y = -2。将y = -2代入x的表达式中，得到： x = (6*(-2) + 16)/4 = 1 所以，方程组的解为x = 1，y = -2。
其他补充	模型A结果正确，模型B第一步整理第二个式子的时候出错了

Good Case 5：

模型服务来源	compassarea
您的输入	LLM在计算机领域该翻译成什么
模型A	`internlm2.5-20b-chat`
模型B	hunyuan-pro
模型A输出	在计算机领域，"LLM"通常被翻译为"大型语言模型"（Large Language Model）。这个术语指的是那些经过训练，可以理解和生成人类语言的复杂模型的AI系统。这些模型基于大量的文本数据进行训练，并能够执行如语言翻译、文本摘要、情感分析等多种自然语言处理任务。大型语言模型在过去几年中取得了显著的进展，特别是随着深度学习技术的发展和计算能力的提升。它们被广泛应用于搜索引擎、聊天机器人、智能客服、机器翻译等领域，极大地推动了人工智能技术的发展和应用。值得注意的是，尽管大型语言模型在自然语言处理领域表现出色，但它们也面临着诸如数据偏见、隐私保护、伦理道德等方面的挑战。因此，在使用和开发这些模型时，需要谨慎考虑其潜在的风险和影响，确保其技术的正面应用。
模型B输出	在计算机领域，LLM 通常可以翻译成“法律硕士”（Master of Laws），但这个缩写在不同上下文中可能有不同的含义。如果 LLM 是指某种特定的技术或专业领域的缩写，那么需要根据具体语境来确定其翻译。例如，在某些特定的软件、工具或技术文档中，LLM 可能有其特殊的含义。如果 LLM 是指某种编程语言、框架或技术的缩写，那么需要查阅相关的技术文档或询问相关的专业人士以获取准确的翻译。但在大多数情况下，LLM 在计算机领域外被广泛认知为“法律硕士”的缩写。如果这是在讨论教育或法律相关的计算机应用，则可相应翻译。
其他补充	在大模型出来前LLM基本都翻译成法律硕士，但现在加了在计算机领域后，模型B没能正确翻译出来。