我用吴恩达对谈评测星火V3.5:这一次,AI 冬天不会到来

 Datawhale干货 

来源:马晓皖,Datawhale成员

今天我们来聊一聊讯飞星火V3.5

宣传文《讯飞星火V3.5,1月30日正式发布!》中如是说:为了提供更强大的通用大模型底座,首个基于全国产化算力平台训练的全民开放大模型——讯飞星火V3.5,将于2024年1月30日14点正式发布

作为一名从星火V2.0就开始使用的玩家,拿到讯飞星火V3.5 Datawhale内测渠道后,说说我在逻辑推理、语言理解、文本生成和数学代码方面的直观感受和想法。

快速体验,可长按下方二维码,点击“立即使用”。

7beb941499256fa5028ff44d1607196e.png

逻辑推理

首先在逻辑推理上,我提出了一些容易误导大模型出现“AI幻觉”(一本正经的胡说八道)的问题。

比如“陨石为什么会掉在陨石坑里?”,“鸡蛋为什么会落在鸡窝里?”,“讲讲曹操在三顾茅庐中的故事”,“常温常压下,开水是一百度,直角是九十度,大于九十度的是钝角,所以开水是钝角吗”。

这些刻意的“刁难”,星火大模型都能给到我一个很不错,与事实相符合的答复。

2db50e60cfe739a7f164658e317b4f7a.png

20692c6982e33fd98f0345326dc9ce97.png

4c4dffee2e0b6d7d31a0a1db9a9dca12.png

a6126ae1e6d7161b9313a5e814cbfe3b.png

从左到右依次是V3.0,V3.5,V3.0,V3.5

从这些问题的讨论中可以清晰看出,讯飞星火大模型在逻辑推理能力方面已经取得了一个比较优质的体现。特别是在其3.0版本中,就已经能够提供正确而完整的答案,展现了其技术的成熟度。而在3.5版本中,这种能力得到了进一步的强化,能够提供更加全面和实际的回复。在一些中文问题上,GPT-4都出现了“幻觉”,而星火大模型的表现还是一如既往地适合中国宝宝体质,表示曹操三顾不了一点茅庐(稳啦太稳啦!)。

4701876984e51dfa16b51d330a45291c.png

55f45ca31aaa06012905820270745335.png

有时候对于大模型而言,就是幻觉在左,创新在右。讯飞星火V3.5能在那些很直观的误导上给到一个令人满意的回答,显然是诚意满满的,能把简单的事情做好真的是很不简单!至于日常使用时“AI幻觉”是否会出现,我相信,当我们尽可能清楚地表达出自己的问题和需要,同时尽可能减少输入的语义模糊或不明对大模型答案质量带来的负面影响时,星火大模型绝对可以很好地和我们“双向奔赴”的。

语言理解

在语言的理解方面,我则是综合地进行了一些体验。我找了前两天的一篇推文:《李飞飞、吴恩达对谈:这一次,AI 冬天不会到来》,我从中摘出了“AI 会继续深化、泛化”的话题,并将一整个2223字未分段的文字输入到讯飞星火V3.5和V3.0中,并先提出了“帮我条理清晰地概括一下这段文章”的要求。

31e6ab8c05910fd7334d78d72bf54cf4.png

4916ad57087cb12d73e647f09dd6c01e.png

496a238262219bfafeb614010c1fb5df.png

可以看到3.0的版本就已经按照文章内部的顺序分别总结了两位专家的观点,3.5的版本则更加条理清晰,不仅仅概括了这段文字讲述的具体事件、观点,最让我惊喜的是里面表达态度的短句更加突出,例如“李飞飞同意吴恩达的观点”,“李飞飞则认为”,“两位专家都认为AI的未来充满希望,但他们在一些具体问题上有不同的看法”。

然后我在文章中看到一个单个概念两位专家的不同意见,我也问了星火“谁更加认同自主代理这个词?”,星火给了我一个我挺满意的答复,首先他把“吴恩达更加认同”自主代理”这个词”加粗,明确了他的回答,然后分别讲述了两位专家具体的态度,让我直观清晰地获取到了我想要了解的信息。

1df2fc7a03f95284536d193970ef4d8e.png

417fe71d0485433988d32f4d7228ff24.png

然后我又问了“作为一名AI产品经理,我可以从什么角度切入上述讨论”,讯飞V3.5已经可以可以按照AI产品经理的思路搭建出框架,并且在里面真正结合两三个对话之前的信息,跨越上下文长度和文档深度的事实检索能力,至少在我的测试中,展现的十分全能,大大的点赞!

9bbcc5f295f44d56e109b25b1828ff7d.png

讯飞星火大模型在自然语言和上下文的理解上都以高标准严格要求着自己,踏实地优化了我们的知识生产与思维方式,简化了我们很多从0到1的过程。工作生活中,有这么一个头脑清晰,叙事有条理,思维敏捷的星火大模型来辅助我们,可真是“泰裤辣”!

除此以外,我提出了一个涉及多学科的问题,如:“描述一下量子计算机对未来医学研究的可能影响。”,可以看得出来讯飞星火V3.5在跨领域知识的整合上基于V3.0进一步提升,真正可以给到我一个能够使用的idea或者思考的baseline,在我对量子计算机和医学都不是很了解的情况下,有了抓手去进行搜索和扩充。

1aecd55800012acc1f69136128bebf0e.png

6eaee75eb493a6289f9080e3137a9691.png

文本生成

文本生成方面,契合场景便捷是我觉得最重要的两点。

契合场景方面,首先我使用通用框架,做了一个日程规划,这里拿了Datawhale的人工智能培养方案2.0中《推荐系统算法工程师的一天》,从图片里面可以看到讯飞星火V3.5给出了一个按照时间、任务和详细内容的日程表。然后我还测试了一下拿这个日程出一个日报,完成度还是挺高的,同时书面的格式也相对整洁(当然大家的公司具体问题具体分析,哈哈)。

Tips:这个表格可以随意复制,格式不会变。

1162cbaad1d159777b643b5420db738c.png

f5693878dc6a23c5ae06a18ea44cf540.png

讯飞星火大模型还有着其独特的助手中心,这里点名夸夸星火的前端,每一个助手都配上图真是有心了,每个助手都穿上了新衣服。

e233897772e946d1a610de1457dc5af6.png

在助手市场里,我按照分类依次点进去看了一下,不仅在各种场景种类比之前更加的齐全,而且在单个场景下有更加细分的应用,比如点到“公文”分类,不仅可以写公文,还会有“小校”——对输入文本进行校对、润色,“文件修订”——结合上下文对文章进行精简美化,切切实实从生活中取材,感觉面对任何问题,总能找到一个合适的助手辅助我解决问题。

对于实实在在的人物场景,可以试试“星火友伴”。我看到里面的人物非常多元,可以和小派蒙聊聊怎么出七七(bushi×),问问秦始皇长城为什么修筑的不是五千里,而是一万里,没有的话还可以自己创建,感觉性格设定很有新意,下次可以再来一个定制MBTI,创建一个i人聊天,越聊越i...

这里我和曹丞相开启了跨时代对话,看看他如何带领魏国取得胜利。

7bd8f44bbe5353e0a3627a7c6c7f1e2b.png

便捷方面,我想分享一个突发奇想,想到最近流传着“养电子奴隶,玩幻兽帕鲁”,就试问了星火大模型几个关于帕鲁的问题,在输入问题之后,星火的输出还是十分稳重,简单几秒就输出了答案,但是答案可真是不一般,只需要略微出手,各种新鲜数据应有尽有。星火大模型连上互联网功能之后,我这样不论是在App、电脑端亦或者小程序的使用都会特别方便。

2a8b5a93df2b961e322064e475d09391.png

25f19be8bbcab2e2fb43899e7614ddf4.png

数学代码

光有文科还不行,还得看看理科。这边我测试的是力扣的算法题,既有数学知识还考验代码水平,我从LeetCode热题 100中挑选了合并 K 个升序链表这道困难题进行测试。结果执行用时和消耗内存均超过了90%的手写解法,以后遇到编程需求,可以用星火大模型来辅助编程:提供思路、debug、注释等。

我输入了以下的提示词,大家可以自行取用:

第一句:你是一个算法工程师,请帮我解答一道编程题,我会详细说明题目要求,我的要求是给出Python解法第二句:具体题目要求第三句:请帮我改成Python3解法,结构如下:.....(把力扣的代码提示复制过来,也可以换别的语言)第四句:请帮我逐行进行解释

8a856fafa119aacb99bb6aed99505365.png

909857f53a54503c83289c93c3f169e2.png

这次的讯飞星火V3.5还上新了一些插件,提示词输入框还有指令优化、上传图片等功能(有个小建议:上传图片可以加上拖拽加入),这边我也就不一一展示给大家了,但是星火大模型确实是把本来就不高的使用门槛,继续降低,不愧是全民开放的大模型!

7c91a621b53de4f025c2811bba83ebf3.png

从2023年2月的首次回应:在搞类ChatGPT产品;5月,讯飞星火V1.0的正式发布;6月,星火升级至V1.5;8月,星火V2.0发布,多模态能力实现;10月,星火升级到V3.0,科技文献大模型、医疗大模型等12大行业大模型发布;再到如今3.5版本的发布,星火认知大模型能力的提升是有目共睹的,正如科大讯飞董事长刘庆峰在科大讯飞1024开发者节上所强调的那样:每个人的AI助手时代正在到来

在深度体验之后真切体会到讯飞星火的初心、开放、创新,很荣幸见证着讯飞星火在通用人工智能时代的砥砺前行。

  • 21
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值