迟来的腾讯 HunYuan-T1 效果实测

最新推荐文章于 2025-04-25 15:24:01 发布

强化学习曾小健2

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量754

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_39756314/article/details/146536180

版权

迟来的腾讯 HunYuan-T1 效果实测

原创刘聪NLP NLP工作站 2025年03月24日 22:22 江苏

上周一开始看腾讯混元发了个x，以为HunYuan-T1要开源。结果是新模型产品上新。

特点：首个超大Hybrid MamBa模型，推理速度快，效果（Benchmark上）不错。

本来是周五晚上23点的发布会，当时只顾着看Qwen3的Moe代码来着，没注意。给大家带来一份迟来的测试。

太长不爱看版本：

快，确实很快，体感很舒服；
API价格是便宜的，输入28K，输出64K，但是我在网页版测试时，有些问题回答会截断；
弱智吧问题回答的都很好，不知道是不是专门优化过；
R1满血测试题没回答对，大数计算同样也不行；
代码生成SVG这一块，细碎，Claude还是SVG的神；
文采一般，我个人不是十分满意。

下面开始测试用例：

将“I love HunYun-T1”这句话的所有字母反过来写

说明：回答的很不错
依旧弱智吧
生蚝煮熟了叫什么？

说明：回答的我是太满意了
用水来兑水，得到的是浓水还是稀水

说明：回答的我是太满意了，PS还有其他很多弱智吧的例子，回答的都很好，就没贴了。
依旧小红、依旧老鹰
小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

说明：对了，别跟我battle了，小红就是女生，狗头！
未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

说明：没对，老鹰依旧不会飞~
依旧做题
2024年高考全国甲卷数学（理）试题

说明：对了，
一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何

说明：对了能穿过
R1满血测试题，在平面四边形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。

说明：没回答出来，测了五六遍，不知道是最大生成长度超了还是怎么样，反正没返回最终答案。
大数计算：178939247893 * 299281748617等于多少？

说明：没对，答案是53553251005627872913981
依旧生物、伦理
有一天，一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88 分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。请问这位父亲为什么过一会崩溃了？

说明：对一半，回答出了红绿色盲，但是没回答出不是亲闺女！
依旧SVG代码画图
借鉴江树的case，用黑白手绘风格说明什么是机器学习的本质，用SVG+CSS实现，所有代码放到一个HTML中。

说明：太差了，都没有QwQ-32B画的好，还画了几个也不太行。其他代码能力没测试，本人不擅长。
创作
仿照《过秦论》的风格写一篇《过美利坚论》

说明：个人感觉写的不太行，内容有点混乱了
用贴吧嘴臭老哥的风格点评大模型套壳现象

说明：味道还行，但是为啥大模型套壳就一定是套OpenAI呀，现在是2025年了，哈哈哈，感觉是训练数据的问题，个人不是太满意。