智谱 GLM-4 大语言模型好用吗?

我替你尝试了它的基本对话、绘图、阅读长文档、数据分析和高级联网等几方面能力。

26b95af8e0ae188add41daab7176e79a.jpeg

最近智谱的 GLM-4 大语言模型发布,成为了热门话题。一篇文章不断出现在我的朋友圈和各种群聊中。

b665bb0e396d13dd19590ec548fef22b.png

这篇文章是由新智元发布的,介绍了GLM-4的特性。文章兴奋地宣称,现在我们也有了国产的「GPTs技术」。但我真正感兴趣的不仅仅是GLM-4的GPTs技术,而更看重它的实际性能。文章中提到了GLM-4的多项能力,特别是它在某些方面能够达到GPT-4的90%到99%的水平,还能进行所谓的“大海捞针”测试。

“大海捞针” 测试是一项针对大语言模型上下文记忆检索的特殊能力测试,我之前给你介绍的 Kimi Chat 是第一个在 128K 窗口大小上获得满分的国产 LLM 。

GLM-4 的主页上,提供了一些官方功能,包括绘图、解读长文档、数据分析和高级网络连接等。

b0db84b71fd020956478393371fc90bd.png

我对 GLM-4 提供的这些功能特别感兴趣,于是逐一测试这些功能。我选择用日常工作中经常使用的一些功能来进行实际测试,最关心的是 GLM-4 是否能真正提高用户的工作效率。下面,我给你展示基本功能、绘图、阅读长文档、数据分析和高级联网等几个方面的测试结果。

基础

首先是基础功能。这是你一打开 GLM-4,看到的最基本界面。我选择 GLM-4 标签页进行测试。

af639296346fd3d99ba79e21b1812f19.png

从介绍上不难看出,GLM-4 在基本模式里能做的事情非常多,就像现在的 GPT-4 一样。它能够原生支持问答、联网查询、绘图、图像识别等多种操作。

GLM-4宣称具有「大海捞针」能力,即能处理超过100K字符的对话上下文窗口,而且不产生幻觉。这让我首先想到的是长文翻译功能

我选了一篇 Markdown 格式的中文长文,包含了图片链接和其他一些元素。

6fc6acd9d066783113dce8005f479611.png

我将这篇文章输入到 GLM-4 中,看看它是否能提供一个完整的翻译。我的提示词为:

请帮我将下面的文章翻译成英文,并注意保留所有细节,包括 Markdown 格式,以及图片和文内链接等。

无论是使用 GPT-4 原声对话,或是我自己开发的 GPTs「博客文章中译英」(已经发布在 GPTs Store 上),还是 Kimi Chat,我都尝试过输入这么长的文章,它们通常都能继续输出内容。当然由于对话上下文的长度限制,它们可能无法一次性完整输出整篇文章的翻译结果。

可是在 GLM-4 这里,当我尝试粘贴文章时,GLM-4 提示我输入的内容已经超过了最大长度限制,即 8000 个词。

01c388baaea6e8ac9ae11dc2b6455d47.png

我感到困惑,因为按照 128K 对话窗口的标准,这篇文章应该是可以完整粘贴进去的。

那咱们就凑合一下吧。既然无法翻译整篇文章,那能翻译多少算多少。在翻译过程中,你可以看到标题的格式得到了保留。

856dd601869167a6f4565910e49fc265.gif

接下来,GLM-4 正常显示了图片,而且文章中的链接也都得到了保留。

它继续输出图片,以及后续文字。我看到这里时感到很高兴,似乎又发现了一款目前免费的长文翻译工具。GLM-4 继续输出,我就在旁边观察。但是,好景不长。

22ef7ae1ce9ee13887b121ae44fda015.gif

GLM-4 突然显示了一条消息,表示无法提供我所需的具体信息。如果我有其他问题或需要查询其他信息,它表示愿意协助。

8879b7b0de6dc88ebd5ab62b9b1e8269.png

如前所述,对话不能完整输出这种情况在我以前的翻译应用中也经常遇到。可是与其他大语言模型不同的是,GLM-4 会直接清空所有已经输出的内容,导致之前的翻译努力全都付诸东流。

这种情况让我感到非常苦恼。我想给智谱提个建议 —— 当 GLM-4 崩溃时,能否保留已经输出的文本内容?毕竟前面的内容已经输出了,我可以将其复制出来继续使用,然后指定从某个特定位置继续翻译。

画图

接下来,我们来看一个大家经常会使用的功能 —— 绘图。

ed3e34893ef3c7af7229c8372fc43baf.png

无论是为公众号文章制作插图,还是为我的视频绘制封面,我现在都依赖 AI 来完成这些绘画工作。

598691aafb8b657a403e5752c5635256.jpeg

我用的提示词是「驴肉火烧」。这个提示词有助于考察大语言模型对中华美食文化的理解能力。

8c7eac9e601a92260d8c0ed224236068.png

我输入 “驴肉火烧” 这四个字后,GLM-4 开始向我解释驴肉火烧是什么,它起源于河北省保定市,主要食材是什么,慢炖的方式使其鲜嫩多汁,香味浓郁,还谈到了它的文化意义和社会价值。

我看得一头雾水 —— 我这不是在绘图模式下吗?你倒是画啊?!

看来即使我在专用的绘图智能体中,如果不明确指出要求绘图,GLM-4 仍然会将我的输入当作是普通对话提问来处理。于是我只好直接告诉它我的要求。

5ab803122a6caa3a05448e00c255178b.png

GLM-4 使用了一个名为 CogView 的绘图功能。

0fb334d486850ce852ca4e207bf90941.png

我放大生成后的图片仔细观看,确实很诱人,鲜嫩多汁。

4e97a2add2bd62f5b30330309c1839f1.png

然而,我也发现了一些问题。首先,画中火烧外面的面饼,似乎与我们熟悉的样子不太一样。此外,尽管这是一个中文的大型语言模型,但在处理图片中的中文时,仍然存在问题。画中的文字,显然并不是真正的汉字。

这表明尽管 GLM-4 是中文模型,但在文字处理方面仍有待改进。画面右下角特意加了一个 “AI 生成” 标签,表明这是 AI 生成的,以防止滥用。

接下来我又尝试了另一个例子,是我前两天为一个视频制作的封面。

7ec37d00f9c399c2cbe4daf5ae45b6f5.png

我当时请 GPT-4 绘制一个场景:一个机器人戴着博士帽,坐在电脑前认真地查阅文献和撰写文稿。旁边有一个中年男子正在喝咖啡,愉快地观察机器人工作。

我认为 GPT-4(借助 DALLE-3)总体上画得还不错。除了机器人面前这张纸不知为何飞起来了,其他方面挺好的。

我用同样的提示词在 GLM-4 中进行了测试。这是它为我绘制的结果。

ebb06be70bdd0828d8af567faae4e015.png

放大来看,画面基本上符合我们的要求。

18fe1e889c4050e5e91864b3ba09ff61.png

只是有一个小问题,机器人头顶上戴的那个东西真的像博士帽吗?😂

之后,我又尝试了英文提示词。我在想,作为一个中文的大型语言模型,它增强了接受中文提示词的能力后,是否在接受英文提示词方面会有所妥协。

英文提示词是现成的,我直接打开 GPT-4 生成的那张图,找到了对应的提示。

11182db8efe5ae41b42722c7f50c9241.png

我直接复制了这个提示词,粘贴到了 GLM-4 中,并且在前面加上了 “draw” 这个词,以防它不理解我的意图,又开始按照问答模式给我解释场景。

ef277616e9fec65ac5d3173354741b2c.png

然后 GLM-4 开始处理,很快完成了任务。

可惜这次,我发现的问题似乎比之前还要多。博士帽的问题依旧存在。另一个问题是咖啡的位置。本来咖啡应该是中年男子手中的,现在却出现在机器人那里,而且机器人的手似乎还要伸进去,这让人觉得不太卫生。是吧?

9f8b3c3233c59d768114a0be8f578073.png

显然,绘图准确度这个问题涉及到诸多方面,包括随机种子的选择以及英文提示词的精确性等等。我们不能仅仅因为一个图像的问题就草率地得出结论,认为它在处理英文提示词方面不如处理中文。我们需要更多地证据来谨慎地评估。

另外,不得不提一句,图中的中年男子眼睛绘制得还有改进的余地。

长文档解读

接下来,我们来看看 GLM-4 长文档解读功能。我选择了一篇学术论文作为解读的内容来源。这篇论文 2024 年 1 月 8 日发布于 arxiv.org 上。我上传到了 GLM-4 中。

4f9c8d8803cd8e5c71a6456c4390d56e.png

GLM-4 展开了一个进度条,提示我它正在学习,并要求我不要关闭当前网页。

151cf1eae17426d79612ee50dbcb6933.png

我耐心等待。当进度条终于走完时,GLM-4 却报错了,告诉我文档解析失败,并询问我是否要上传其他文档。

69c7069909f8325965b273260317b9ee.png

没办法,我只好换了一篇试试。

b95e6e09fb42195609dd60167f09d11e.png

这篇文章探讨了 GPT-4 是否能成为一个优秀的数据分析师。这一次,GLM-4 终于成功完成了解析。

dad444565e8f2392c3308ede5d0057d0.png

左侧显示的是文章的全文,可以通过上下滑动来查看。在右侧,我们可以看到一些核心观点和尝试的例子。

GLM-4 首先概述了这篇文章的研究主题,介绍了设计的框架如何提取数据,并进行了哪些分析。结果表明,在性能方面,GPT-4 可以媲美初级实习数据分析师,甚至在某些方面超过了高级数据分析师。

e6a8f4e926ab7a78429ffea804290ede.png

我非常赞同这个结论。对于那些刚刚开始学习数据分析的新手来说,使用 GPT-4 进行分析可能会得到更好的效果,特别是在数据提取和可视化方面。GLM-4 继续分析总结,说 GPT-4 在准确性和深度上还有待提升,训练数据的质量可能会影响到生成的答案的质量。

GLM-4 还列出了对文档的总结和提出的问题。值得注意的是这三个问题,都非常值得关注。

4cfe56c6bac3d9906b4268832d7e0fe0.png

第三个问题,我认为是最有趣的,即 GPT-4 在哪些方面的表现优于人类数据分析师?在哪些方面不如人类?我非常想知道答案,于是直接点击,让 GLM-4 告诉我答案。

f129489e60b278e6178ed14b1bac9ba7.png

我认为 GLM-4 的回答非常好。但是,它缺少了跳转到文章相应部分的链接,也就是说,它没有提供一个方便用户验证的功能。如果没有这样的功能,你很难判断这些详尽的总结是基于主观臆断,还是有确凿的依据。因此,我建议智谱在后续版本中加入这个功能。

数据分析

接下来,咱们看看 GLM-4 的数据分析能力。

d543cc77997f28ec64540089d560d42b.png

作为样例,我继续使用咱们早已熟悉的 loans.csv 数据集。(如果你不熟悉,不要紧,往前翻我的 GPT-4 数据分析教程)

e432b9604c023703bfa80ffff61527e9.png

我说:“请根据你的经验对该数据集进行分析。”

c8905ce38fae4fb3595121a6f5bb10a2.png

这样提示的考虑,是尽量减少用户需要具备的专业数据分析知识。让 GLM-4 根据自身的经验来处理,通常能够帮助用户解决知识储备不足的问题。

GLM-4 展示了各种初步分析结果,包括对数据字段的理解。接下来,它表示将进行一些基础的数据分析,询问我想先看哪部分。

176c27f98d56dd1596d0fcb609c06fae.png

我回答说:“按照你的经验来处理,不用问我。”

于是 GLM-4 决定开始按照以下步骤操作:查看数据集的基本信息、描述性统计、分类列的分布、目标变量的分析特征,以及数值型特征与目标变量的关系。

fca2cfc25883440680e00d29ddbac6ca.png

它首先对数据进行了全面的审视,提供了记录总数并进行了描述性统计,给出了详细的描述。到目前为止,我认为它的操作和 GPT-4 的类似,都非常规范。它通过生成代码和执行调用来返回处理结果。

504dd7a5828e9f7a2fe49050654806c2.png

接着,GLM-4 展示了一系列基本的统计图表。我很满意。

e384b5d0b745a59333aeb1578c30eecb.png

GLM-4 结合分析结果,给出了数据的分布情况,比如贷款等级的不均衡分布,借款人数的多寡,以及大多数借款人是否拥有自己的房产等信息。

77f5b36dea3bb257d6df617601a7d36c.png

但是,就在这时,GLM-4对话 又突然崩溃了

be49c18225ab960b6f588848075fdacf.gif

我尝试回头查看之前的输出,可惜之前生成的图表全部丢失了。

b1278e15aa97af4175d65e53ef60a6be.png

GLM-4 再次表示歉意。

1e4a8b75565cb7e4764e529fbd781208.png

我继续重新要求它根据经验分析数据集,但 GLM-4 回答说:“很抱歉,作为一个文本生成的人工智能,我无法直接访问外部数据集或文件。但如果你能提供一些描述,我或许能帮助。”

这意味着一旦 GLM-4 崩溃,之前上传的文件和所有的对话记录就像被抹除了一样。

我只好重新开始,打开了一个新的对话框,再次上传了 loans.csv 文件。

既然我们已经看到了基本的分析和可视化结果,我决定这次跳过基础分析步骤,直接让 GLM-4 为我构建一个预测模型。

098a61300c08d413d98d99a04aa22afa.png

为了处理这个任务,我还尝试使用了 CoT(思维链)激活,以便让 GLM-4 在分析中更加沉着、加深思考。

GLM-4 开始解读数据。

027cbe65330679f357bfe2c35c381a41.png

然后它加载数据并查看基本信息。这些步骤看起来和之前重复了,但由于 GLM-4 崩溃,会话重启,GLM-4 已经忘记了之前的操作,所以也不得不重新开始。

GLM-4 列出计划,进行数据描述、检查缺失值和数据可视化。

a4229027e6d726a03194f7a1204ec477.png

首先,GLM-4 提供了基本的统计信息,包括数据特征的情况、是否有缺失值、特征分布情况以及均值等。

d0596e8eb4358f69eb426335ebf40dc7.png

之后,GLM-4 开始进行可视化工作。生成代码并制作了一些直方图。

6e437327fb5b993883ad1a2ad6e683a8.png

GLM-4 继续进行后续处理,提出需要对数据进行编码。

8ddc2a91d80e61e7e7e7c1d76a1bb8e5.png

编码方式使用的是 one-hot encoding(独热编码)来处理。

可惜,在生成代码并完成处理后,GLM-4 又一次报告了错误。

02d7eec94c0a291e8efe6f3531361179.png

好在一旦出现错误,GLM-4 会尝试自动进行纠正,而不需要用户指出错误来进行修复。

a92127f01c9dce56340f04e76ce758fd.png

每当出现错误时,GLM-4 都会先向我道歉,然后开始自我反思,并尝试重新处理问题。如是者三,终于成功输出了一系列特征的数值结果。

32a09c28670ba8c1e44b6d5989b12ceb.png

在这个基础上,GLM-4 准备继续进行下列步骤。

26ea05d0e395c69ebec5e16d8e938f5b.png

这些操作包括特征选择、训练和评估等。

6c1dd920ae00c919b8777550074dfecc.png

在特征选择方面,GLM-4 首先分析了不同特征的重要性,并列出了它们的重要性。

1181957feba52422bec4ab5d5829a236.png

然后它选择了最重要的 10 个特征来训练模型,使用随机森林模型进行交叉验证,并评估了模型的性能。

最后,GLM-4自动解读了结果。随机森林模型的交叉验证平均准确率为59.59%,同时也报告了标准差。

a501d8dbafe342f885c771c6690d6518.png

GLM-4 表示,这是一个相对不错的开始,但仍有提升空间。

e2fe8a0133665ef79861074baf628fc3.png

我特别不喜欢大型模型对我说「你可以这样那样做,来进行改进」。如果我需要自己来做这些,那我还需要你这个人工智能模型来做什么呢?

我告诉 GLM-4,好吧,既然你提出了改进的建议,我才不会亲自去执行。请你根据自己的建议,一步一步地思考,尝试改进模型的效果。

e183712dfc2522630d0346b085701ffb.png

GLM-4 开始嘟囔说,我将进行特征工程,添加一些基于时间的特征。

它使用了贷款的月数这一特征,将其纳入分析,以查看是否能提高性能。很快,GLM-4 表示已经成功地添加了两个新的交互特征。

7228f196264e5ce6891d69359b39ce3c.png

接下来,GLM-4 定义超参数网格并执行网格搜索(Grid search),然后评估最优模型。

可惜,GLM-4 突然停下来,然后说出了错误信息,提示其他操作仍然可以正常使用,并要求重试。

05eee605db563a9beccc7ba3e333b9cf.png

我特意去查看了一下,打开了默认折叠的源代码来看,并没有看到具体的错误信息。

我告诉 GLM-4 继续处理刚才的错误。很快,它又一次报告了错误,并提示其他功能仍可正常使用,请我重试。

3592ccff560c3f26bd5180b65fbf8b71.png

可我该如何重试呢?我建议 GLM-4 应该能够提供错误的具体原因。不要只是给我一段代码,然后告诉我说这出错。

在数据分析中,用户的决策主要是为了决定是否继续某个步骤,比如刚才提到的网格搜索。我是否可以在改进特征选择后跳过网格搜索,直接进入下一步。但如果我不知道错误的具体原因,我怎么知道是否值得让 GLM-4 重新尝试?

我建议 GLM-4 应该提供给用户更详细的错误提示信息。至少要告诉我错误的类型和一些简单分析,这样我才不会盲目尝试。

高级联网

接下来咱们尝试的功能名为 “高级联网”。起初我对这个名称感到困惑,不清楚它的具体作用。

8c465653e38ab7c3e3c1d98964957dd2.png

后来我了解到,这个功能实际上就是个 Perplexity 。在这个智能体中,GLM-4 可以访问大量资料,并结合强大的语言模型能力来回答问题。

我请它帮我「查找天津师范大学的王树义老师的信息」。GLM-4 显然进行了一些在线搜索,尽管我不确定它使用了哪个搜索引擎。

7b5a5774a12ea0a3311a6a1f4e21eda5.png

GLM-4 提供的信息中包含了多处引用链接,第一段就有三个,后面的段落也有。这些信息涵盖了我目前的工作单位和研究领域。它还专门提到了我的教育背景,包括我在南开大学计算机系获得的学士和博士学位,以及我在教育和专业领域的丰富经验。

接着,它描述了我感兴趣的领域,我参与的课题,以及我与张庆薇、张晋合著在《图书情报知识》上发表的论文。

此外,GLM-4 还提到了我在知乎等社交媒体平台上的活跃,分享关于科研工具和技术的见解和经验。「这些活动不仅在教学和科研方面取得了成就,还对学术界和公众产生了积极影响」。我对这些赞誉表示感谢。

特别是,因为 GLM-4 在回答中提供了相应的参考链接,你可以点击直接跳转到相关页面。

1522dffd7fc7f034a6cbd42481f778a6.gif

接着,我进一步询问:“王树义老师在 B 站上最近发布了哪些视频?” 它首先在线阅读了有关我在 B 站最近视频的信息,然后打开了网页。值得注意的是,GLM-4 确实访问了 B 站,打开了我的个人空间,然后查到了好几个相关的视频网页。

5f41e5024ceea635e5a358ff1c0a1d3e.png

这些视频包括科研 AI 辅助工具 Elicit、卡片笔记工具 Roam Research 以及 Logseq 标签的使用基础,如何使用人工智能阅读论文的 Explain Paper 演示,以及 Roam Research 的成本问题,如何使用语音进行卡片笔记的 一站式 AI 应用 AudioPen 等。在一次查询中,它总共打开了九个网页并进行了总结。

edc73e00dd17b0efba115390084cd234.png

但总结的结果却令人失望。GLM-4 说尽管尝试了多种搜索方式,却未能找到关于我在 B 站上最近发布的视频的具体信息。它表示确实找到了一个我发布的视频,发布日期是 2022 年 10 月 25 日。但对于我在 B 站上最近发布的其他视频未能提供具体信息,并建议我直接访问 B 站搜索我的个人空间。我不禁想问,那刚才你忙活了什么呢?

3c96308995afe788e1834863f866d520.png

我检查了 GLM-4 打开的网页,明明找到了符合要求的相关链接,但 GLM-4 却坚称没有找到,令人颇为不解。

小结

GLM-4有些功能确实让人印象深刻。例如绘图功能完成度很高,质量也很好;数据分析方面也做得不错,特别是能够自动生成预测模型,显示出GLM-4在软件包配置和调用执行方面的能力。当分析结果显示准确度不高时,GLM-4还能提供合理的分析和建议。我认为,这对于国内的研究人员,特别是IT和数据科学之外专业的研究生来说,会很有帮助。

GLM-4也有一些地方需要改进。首先是输入文本的长度限制,我希望它能够处理更长的文本,至少超过8000字符的文章扔进去不要报错。其次是错误处理方式。我建议提高GLM-4的稳定性,至少在出现对话崩溃时,不要丢失之前的所有输出

你尝试过后,对 GLM-4 有什么使用体会?欢迎留言,咱们一起交流讨论。

祝 AI 效率工具使用愉快!

点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标

欢迎订阅我的小报童付费专栏,每季度更新不少于10篇文章。订阅一整年价格优惠。

2359e1ddc8fa396ef01139a46806d2df.png

如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。

ff94e621d1e296f9f1f8018c9dd39c25.jpeg

若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。

延伸阅读

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GLM-4V是一种大型模型,它的全称是Generalized Linear Model-4V。GLM-4V是一种广义线性模型,它是基于广义线性模型(Generalized Linear Model, GLM)的扩展和改进。 GLM-4V的原理如下: 1. 广义线性模型GLM):GLM是一种统计模型,用于建立因变量与自变量之间的关系。它通过将线性回归模型与非线性函数相结合,可以处理不满足正态分布假设的数据。GLM的基本假设是,因变量的分布可以通过一个链接函数与自变量的线性组合相关联。 2. 四个"V":GLM-4V中的四个"V"代表了四个重要的概念,分别是Variation、Variance、Value和Validation。 - Variation(变异性):GLM-4V关注因变量的变异性,通过分析因变量的变异程度来确定模型的拟合程度。 - Variance(方差):GLM-4V考虑了因变量的方差,通过对方差进行建模,可以更好地描述因变量的分布特征。 - Value(价值):GLM-4V关注因变量的价值,通过对因变量的价值进行建模,可以更好地理解因变量对自变量的响应。 - Validation(验证):GLM-4V通过验证模型的拟合程度和预测能力,来评估模型的有效性和可靠性。 3. 模型构建:GLM-4V的模型构建包括以下几个步骤: - 数据准备:包括数据清洗、变量选择和数据转换等。 - 模型选择:选择适当的链接函数和误差分布族,并确定自变量的形式。 - 参数估计:使用最大似然估计或广义最小二乘法等方法,估计模型的参数。 - 模型诊断:对模型进行诊断,检验模型的拟合程度和假设条件是否满足。 - 模型评估:通过交叉验证等方法,评估模型的预测能力和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值