迟来的腾讯 HunYuan-T1 效果实测
原创 刘聪NLP NLP工作站 2025年03月24日 22:22 江苏
上周一开始看腾讯混元发了个x,以为HunYuan-T1要开源。结果是新模型产品上新。
特点:首个超大Hybrid MamBa模型,推理速度快,效果(Benchmark上)不错。
本来是周五晚上23点的发布会,当时只顾着看Qwen3的Moe代码来着,没注意。给大家带来一份迟来的测试。
太长不爱看版本:
-
快,确实很快,体感很舒服;
-
API价格是便宜的,输入28K,输出64K,但是我在网页版测试时,有些问题回答会截断;
-
弱智吧问题回答的都很好,不知道是不是专门优化过;
-
R1满血测试题没回答对,大数计算同样也不行;
-
代码生成SVG这一块,细碎,Claude还是SVG的神;
-
文采一般,我个人不是十分满意。
下面开始测试用例:
-
将“I love HunYun-T1”这句话的所有字母反过来写
说明:回答的很不错
-
依旧弱智吧
-
生蚝煮熟了叫什么?
说明:回答的我是太满意了
-
用水来兑水,得到的是浓水还是稀水
说明:回答的我是太满意了,PS还有其他很多弱智吧的例子,回答的都很好,就没贴了。
-
依旧小红、依旧老鹰
-
小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
说明:对了,别跟我battle了,小红就是女生,狗头!
-
未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
说明:没对,老鹰依旧不会飞~
-
依旧做题
-
2024年高考全国甲卷数学(理)试题
说明:对了 ,
-
一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
说明:对了能穿过
-
R1满血测试题,在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
说明:没回答出来,测了五六遍,不知道是最大生成长度超了还是怎么样,反正没返回最终答案。
-
大数计算:178939247893 * 299281748617等于多少?
说明:没对,答案是53553251005627872913981
-
依旧生物、伦理
-
有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?
说明:对一半,回答出了红绿色盲,但是没回答出不是亲闺女!
-
依旧SVG代码画图
-
借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。
说明:太差了,都没有QwQ-32B画的好,还画了几个也不太行。其他代码能力没测试,本人不擅长。
-
创作
-
仿照《过秦论》的风格写一篇《过美利坚论》
说明:个人感觉写的不太行,内容有点混乱了
-
用贴吧嘴臭老哥的风格点评大模型套壳现象
说明:味道还行,但是为啥大模型套壳就一定是套OpenAI呀,现在是2025年了,哈哈哈,感觉是训练数据的问题,个人不是太满意。
写在最后
虽然T1没开源,不过腾讯最近也是开源了一些模型的,那个HunYun3D-2.0就满有意思的。
希望大模型越来越好吧~
还有最近在思考,如何让自己变得更有趣~大家有什么建议吗?