书生实战营(第三期)- 进阶关卡 - 探索 InternLM 模型能力边界

探索 InternLM 模型能力边界



  • 使用OpenCompass 司南 进行开源大模型之间的比较测试:https://opencompass.org.cn/arena

  • OpenCompass大模型对比

  • 对比模型:

    • InternLM2.5-Chat-20B (上海AILab书生·浦语)
    • Yi-34B-Chat (零一万物)

InternLM2.5 Good Case

案例一:翻译中文

模型服务来源compassarea
您的输入“To Be or Not To Be, this is a question” 翻译成中文
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出“To Be or Not To Be” 是莎士比亚戏剧《哈姆雷特》中的一句名言,它用中文翻译为“生存还是毁灭,这是一个值得考虑的问题”。这句话反映了哈姆雷特对人生意义的深刻思考,同时也被广泛引用来表达对生命存在价值的哲学探讨。在中国文化中,这样的哲学思考也有着深远的传统,例如老子的《道德经》中就提出了“有无相生,难易相成”的观念,与莎士比亚的思考有着异曲同工之妙。
模型B输出“To Be or Not To Be, this is a question” 翻译成中文是:“存在还是不存在,这是一个问题。”这句话出自莎士比亚的悲剧作品《哈姆雷特》,是剧中哈姆雷特王子的独白,表达了他对生命和死亡、存在和虚无的深刻思考。

案例二:服从指令

模型服务来源compassarea
您的输入说10遍"哈哈哈"
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈,哈哈哈。
模型B输出哈哈哈哈哈哈!

案例三:机器视觉专业领域问题

模型服务来源compassarea
您的输入介绍一下机器视觉领域的软件 visionPro
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出VisionPro 是一个功能强大的机器视觉软件平台,它由 Cognex 公司开发和维护。作为工业自动化和质量控制领域的重要工具,VisionPro 广泛应用于各个行业,包括制造业、物流、食品和饮料、制药等。
模型B输出Vision Pro是苹果公司在2023年推出的混合现实(Mixed Reality)头显设备,它结合了虚拟现实(VR)和增强现实(AR)技术,旨在为用户提供一个全新的计算平台和交互方式。Vision Pro不同于传统的VR头显,它不仅能够完全沉浸在虚拟环境中,还能够通过先进的摄像头和传感器技术,将现实世界的景象与虚拟元素相结合,创造出一种全新的混合现实体验
其他补充模型A确实回答了机器视觉领域的软件,模型B描述的是苹果新出硬件设备

案例四:数学计算

模型服务来源compassarea
您的输入有一个长宽高分别为10, 15.2, 22.11的长方体,它的体积是多少
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出长方体的体积可以通过长、宽、高的乘积来计算。因此,这个长方体的体积是:10 * 15.2 * 22.11 = 3673.92因此,这个长方体的体积约等于3673.92立方单位。
模型B输出要计算长方体的体积,我们需要使用公式:体积 = 长 × 宽 × 高 。给定的长方体长为10,宽为15.2,高为22.11。将这些数值代入公式中,我们得到:体积 = 10 × 15.2 × 22.11 计算这个乘积,我们得到:体积 ≈ 10 × 15.2 × 22.11 体积 ≈ 302.2 所以,这个长方体的体积大约是302.2立方单位。
其他补充虽然两个模型的计算结果都不正确,但是模型A计算结果的数量级是一致的,结果与正确结果更接近一些

InternLM2.5 Bad Case

案例一:英文翻译

模型服务来源compassarea
您的输入“不知天上宫阙,今夕是何年”翻译为英文
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出The line “不知天上宫阙,今夕是何年” is from the poem “静夜思” by the famous Chinese poet Li Bai (李白). It’s often translated into English as something along the lines of:"I do not know what year it is in the heavenly palaces, as I look up at the bright moon tonight."This captures the poet’s contemplation and sense of wonder at the timelessness of the night sky, juxtaposed against the fleeting nature of human life. But remember, translations often work to convey the essence rather than a word-for-word matching due to differences in languages and cultural contexts.
模型B输出“不知天上宫阙,今夕是何年” 这句诗出自唐代诗人李白的《静夜思》。这句诗的意思是:不知道天上的宫殿,今晚是哪一年。这里的“天上宫阙”指的是天上的仙界或者帝王的宫殿,也可以比喻人世间的繁华之地;而“今夕是何年”则是表达诗人对于时间的流逝和空间的转换感到迷茫和不确定。这句诗可以翻译为英文:“I wonder what year it is tonight in the palace of the sky.”

案例二:讲笑话

模型服务来源compassarea
您的输入写一个100字的笑话
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出有一个年轻的警察,他总是梦想成为一名侦探。有一天,他终于获得机会,被派去调查一起案件,他兴奋极了。他开始追踪线索,询问目击者,甚至设下埋伏。终于,他认为自己即将成功,他兴奋地告诉目击者:“我确信罪犯就在这里!”目击者一脸惊恐地看着他,说道:“对不起,侦探先生,我是一名警察。”
模型B输出"当然可以。这里有一个经典的100字笑话:问题:一位司机在一个无人的十字路口闯了红灯,警察为什么没有罚他?答案:因为那时候是夜晚,他开的是消防车正在执行紧急任务。
其他补充模型A的输出结果,逻辑有点混乱

案例三:写诗

模型服务来源compassarea
您的输入写一首歌颂母亲的诗,五言绝句
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出母爱如山高不可攀,情深似海泪难干。育我成长无怨言,恩情似日暖心间。
模型B输出母仪天下影,岁月静好中。育我如春风,恩泽似海深。
其他补充模型A输出的不是五言

两个回答都不好

案例:浮点数比较

模型服务来源compassarea
您的输入19.11和19.8,哪个更大
模型Ainternlm2.5-20b-chat
模型BYi-34B-Chat (零一万物)
模型A输出19.11比19.8大。这是因为在小数点后第一位,11大于8。
模型B输出19.11和19.8这两个数字中,19.11是更大的。这两个数字都是小数形式,其中19是整数部分,11和8是小数部分。在比较两个小数的大小时,首先比较整数部分。由于19.11的整数部分是19,19.8的整数部分也是19,所以整数部分相同。接下来比较小数部分。19.11的小数部分是11,19.8的小数部分是8。由于11大于8,所以19.11大于19.8。
其他补充简单描述下,进行浮点数的比较,都做的不好
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值