我替你尝试了它的基本对话、绘图、阅读长文档、数据分析和高级联网等几方面能力。
![26b95af8e0ae188add41daab7176e79a.jpeg](https://i-blog.csdnimg.cn/blog_migrate/506ec2f4f2b6f3edb9360ccda2727a8c.jpeg)
最近智谱的 GLM-4 大语言模型发布,成为了热门话题。一篇文章不断出现在我的朋友圈和各种群聊中。
![b665bb0e396d13dd19590ec548fef22b.png](https://i-blog.csdnimg.cn/blog_migrate/f3077dbf611a108e031d5f43c39284bc.png)
这篇文章是由新智元发布的,介绍了GLM-4的特性。文章兴奋地宣称,现在我们也有了国产的「GPTs技术」。但我真正感兴趣的不仅仅是GLM-4的GPTs技术,而更看重它的实际性能。文章中提到了GLM-4的多项能力,特别是它在某些方面能够达到GPT-4的90%到99%的水平,还能进行所谓的“大海捞针”测试。
“大海捞针” 测试是一项针对大语言模型上下文记忆检索的特殊能力测试,我之前给你介绍的 Kimi Chat 是第一个在 128K 窗口大小上获得满分的国产 LLM 。
GLM-4 的主页上,提供了一些官方功能,包括绘图、解读长文档、数据分析和高级网络连接等。
![b0db84b71fd020956478393371fc90bd.png](https://i-blog.csdnimg.cn/blog_migrate/1a7e1333c7db607fe0aba29621f1ffa2.png)
我对 GLM-4 提供的这些功能特别感兴趣,于是逐一测试这些功能。我选择用日常工作中经常使用的一些功能来进行实际测试,最关心的是 GLM-4 是否能真正提高用户的工作效率。下面,我给你展示基本功能、绘图、阅读长文档、数据分析和高级联网等几个方面的测试结果。
基础
首先是基础功能。这是你一打开 GLM-4,看到的最基本界面。我选择 GLM-4 标签页进行测试。
![af639296346fd3d99ba79e21b1812f19.png](https://i-blog.csdnimg.cn/blog_migrate/2918c6fe6a92188c8141e3c453dc045e.png)
从介绍上不难看出,GLM-4 在基本模式里能做的事情非常多,就像现在的 GPT-4 一样。它能够原生支持问答、联网查询、绘图、图像识别等多种操作。
GLM-4宣称具有「大海捞针」能力,即能处理超过100K字符的对话上下文窗口,而且不产生幻觉。这让我首先想到的是长文翻译功能。
我选了一篇 Markdown 格式的中文长文,包含了图片链接和其他一些元素。
![6fc6acd9d066783113dce8005f479611.png](https://i-blog.csdnimg.cn/blog_migrate/91d6e3657dcae49aa8bf4e9a0222c764.png)
我将这篇文章输入到 GLM-4 中,看看它是否能提供一个完整的翻译。我的提示词为:
请帮我将下面的文章翻译成英文,并注意保留所有细节,包括 Markdown 格式,以及图片和文内链接等。
无论是使用 GPT-4 原声对话,或是我自己开发的 GPTs「博客文章中译英」(已经发布在 GPTs Store 上),还是 Kimi Chat,我都尝试过输入这么长的文章,它们通常都能继续输出内容。当然由于对话上下文的长度限制,它们可能无法一次性完整输出整篇文章的翻译结果。
可是在 GLM-4 这里,当我尝试粘贴文章时,GLM-4 提示我输入的内容已经超过了最大长度限制,即 8000 个词。
![01c388baaea6e8ac9ae11dc2b6455d47.png](https://i-blog.csdnimg.cn/blog_migrate/8616bba5b9c7b1eb1dcd5b29e2156b58.png)
我感到困惑,因为按照 128K 对话窗口的标准,这篇文章应该是可以完整粘贴进去的。
那咱们就凑合一下吧。既然无法翻译整篇文章,那能翻译多少算多少。在翻译过程中,你可以看到标题的格式得到了保留。
![856dd601869167a6f4565910e49fc265.gif](https://i-blog.csdnimg.cn/blog_migrate/22e6e461f2e7c1de24fd8f4196c66bb3.gif)
接下来,GLM-4 正常显示了图片,而且文章中的链接也都得到了保留。
它继续输出图片,以及后续文字。我看到这里时感到很高兴,似乎又发现了一款目前免费的长文翻译工具。GLM-4 继续输出,我就在旁边观察。但是,好景不长。
GLM-4 突然显示了一条消息,表示无法提供我所需的具体信息。如果我有其他问题或需要查询其他信息,它表示愿意协助。
![8879b7b0de6dc88ebd5ab62b9b1e8269.png](https://i-blog.csdnimg.cn/blog_migrate/1f6f3719fb394fd7c33a16b24f399720.png)
如前所述,对话不能完整输出这种情况在我以前的翻译应用中也经常遇到。可是与其他大语言模型不同的是,GLM-4 会直接清空所有已经输出的内容,导致之前的翻译努力全都付诸东流。
这种情况让我感到非常苦恼。我想给智谱提个建议 —— 当 GLM-4 崩溃时,能否保留已经输出的文本内容?毕竟前面的内容已经输出了,我可以将其复制出来继续使用,然后指定从某个特定位置继续翻译。
画图
接下来,我们来看一个大家经常会使用的功能 —— 绘图。
![ed3e34893ef3c7af7229c8372fc43baf.png](https://i-blog.csdnimg.cn/blog_migrate/f0b63de4e042b643bde98c0f4cdf9956.png)
无论是为公众号文章制作插图,还是为我的视频绘制封面,我现在都依赖 AI 来完成这些绘画工作。
![598691aafb8b657a403e5752c5635256.jpeg](https://i-blog.csdnimg.cn/blog_migrate/05dc2454a5104c1b65a4c154ab37be3a.jpeg)
我用的提示词是「驴肉火烧」。这个提示词有助于考察大语言模型对中华美食文化的理解能力。
![8c7eac9e601a92260d8c0ed224236068.png](https://i-blog.csdnimg.cn/blog_migrate/d69494aff76c15a91fd22a4a89348bbc.png)
我输入 “驴肉火烧” 这四个字后,GLM-4 开始向我解释驴肉火烧是什么,它起源于河北省保定市,主要食材是什么,慢炖的方式使其鲜嫩多汁,香味浓郁,还谈到了它的文化意义和社会价值。
我看得一头雾水 —— 我这不是在绘图模式下吗?你倒是画啊?!
看来即使我在专用的绘图智能体中,如果不明确指出要求绘图,GLM-4 仍然会将我的输入当作是普通对话提问来处理。于是我只好直接告诉它我的要求。
![5ab803122a6caa3a05448e00c255178b.png](https://i-blog.csdnimg.cn/blog_migrate/357244d5746d8a5846a33793ed83a687.png)
GLM-4 使用了一个名为 CogView 的绘图功能。
![0fb334d486850ce852ca4e207bf90941.png](https://i-blog.csdnimg.cn/blog_migrate/53e988c8bb8ec33dad84e6b338df73be.png)
我放大生成后的图片仔细观看,确实很诱人,鲜嫩多汁。
![4e97a2add2bd62f5b30330309c1839f1.png](https://i-blog.csdnimg.cn/blog_migrate/fd165bc722fa7c4faa0558fbd4d191a6.png)
然而,我也发现了一些问题。首先,画中火烧外面的面饼,似乎与我们熟悉的样子不太一样。此外,尽管这是一个中文的大型语言模型,但在处理图片中的中文时,仍然存在问题。画中的文字,显然并不是真正的汉字。
这表明尽管 GLM-4 是中文模型,但在文字处理方面仍有待改进。画面右下角特意加了一个 “AI 生成” 标签,表明这是 AI 生成的,以防止滥用。
接下来我又尝试了另一个例子,是我前两天为一个视频制作的封面。
![7ec37d00f9c399c2cbe4daf5ae45b6f5.png](https://i-blog.csdnimg.cn/blog_migrate/ec7c673a98c5f963c75f259d2126bc37.png)
我当时请 GPT-4 绘制一个场景:一个机器人戴着博士帽,坐在电脑前认真地查阅文献和撰写文稿。旁边有一个中年男子正在喝咖啡,愉快地观察机器人工作。
我认为 GPT-4(借助 DALLE-3)总体上画得还不错。除了机器人面前这张纸不知为何飞起来了,其他方面挺好的。
我用同样的提示词在 GLM-4 中进行了测试。这是它为我绘制的结果。
![ebb06be70bdd0828d8af567faae4e015.png](https://i-blog.csdnimg.cn/blog_migrate/0eaac3d44d4795d1805af1e5a7aa3d28.png)
放大来看,画面基本上符合我们的要求。
![18fe1e889c4050e5e91864b3ba09ff61.png](https://i-blog.csdnimg.cn/blog_migrate/768c6c06bd0fb65821aa7c34285ed797.png)
只是有一个小问题,机器人头顶上戴的那个东西真的像博士帽吗?😂
之后,我又尝试了英文提示词。我在想,作为一个中文的大型语言模型,它增强了接受中文提示词的能力后,是否在接受英文提示词方面会有所妥协。
英文提示词是现成的,我直接打开 GPT-4 生成的那张图,找到了对应的提示。
![11182db8efe5ae41b42722c7f50c9241.png](https://i-blog.csdnimg.cn/blog_migrate/94d74f1dc34b479c1e424a77fe540242.png)
我直接复制了这个提示词,粘贴到了 GLM-4 中,并且在前面加上了 “draw” 这个词,以防它不理解我的意图,又开始按照问答模式给我解释场景。
![ef277616e9fec65ac5d3173354741b2c.png](https://i-blog.csdnimg.cn/blog_migrate/13619c53ec446aba5239e73f4e54f944.png)
然后 GLM-4 开始处理,很快完成了任务。
可惜这次,我发现的问题似乎比之前还要多。博士帽的问题依旧存在。另一个问题是咖啡的位置。本来咖啡应该是中年男子手中的,现在却出现在机器人那里,而且机器人的手似乎还要伸进去,这让人觉得不太卫生。是吧?
![9f8b3c3233c59d768114a0be8f578073.png](https://i-blog.csdnimg.cn/blog_migrate/e693b2935a04224a62070df0ec65e462.png)
显然,绘图准确度这个问题涉及到诸多方面,包括随机种子的选择以及英文提示词的精确性等等。我们不能仅仅因为一个图像的问题就草率地得出结论,认为它在处理英文提示词方面不如处理中文。我们需要更多地证据来谨慎地评估。
另外,不得不提一句,图中的中年男子眼睛绘制得还有改进的余地。
长文档解读
接下来,我们来看看 GLM-4 长文档解读功能。我选择了一篇学术论文作为解读的内容来源。这篇论文 2024 年 1 月 8 日发布于 arxiv.org 上。我上传到了 GLM-4 中。
![4f9c8d8803cd8e5c71a6456c4390d56e.png](https://i-blog.csdnimg.cn/blog_migrate/2d7beb9fff0ee562cd36551f9711ce43.png)
GLM-4 展开了一个进度条,提示我它正在学习,并要求我不要关闭当前网页。
![151cf1eae17426d79612ee50dbcb6933.png](https://i-blog.csdnimg.cn/blog_migrate/02c9d8fc5ac27cd2a436cfa39ed936e1.png)
我耐心等待。当进度条终于走完时,GLM-4 却报错了,告诉我文档解析失败,并询问我是否要上传其他文档。
![69c7069909f8325965b273260317b9ee.png](https://i-blog.csdnimg.cn/blog_migrate/85a58391247a4e82d5780fc31f59cbf5.png)
没办法,我只好换了一篇试试。
![b95e6e09fb42195609dd60167f09d11e.png](https://i-blog.csdnimg.cn/blog_migrate/c1edaa3d236ec2a387dae4bd8f7e4857.png)
这篇文章探讨了 GPT-4 是否能成为一个优秀的数据分析师。这一次,GLM-4 终于成功完成了解析。
![dad444565e8f2392c3308ede5d0057d0.png](https://i-blog.csdnimg.cn/blog_migrate/71b8420a8081797291082b347f527f34.png)
左侧显示的是文章的全文,可以通过上下滑动来查看。在右侧,我们可以看到一些核心观点和尝试的例子。
GLM-4 首先概述了这篇文章的研究主题,介绍了设计的框架如何提取数据,并进行了哪些分析。结果表明,在性能方面,GPT-4 可以媲美初级实习数据分析师,甚至在某些方面超过了高级数据分析师。
![e6a8f4e926ab7a78429ffea804290ede.png](https://i-blog.csdnimg.cn/blog_migrate/2eeaca4adc1696ed93cd0174d09b6cca.png)
我非常赞同这个结论。对于那些刚刚开始学习数据分析的新手来说,使用 GPT-4 进行分析可能会得到更好的效果,特别是在数据提取和可视化方面。GLM-4 继续分析总结,说 GPT-4 在准确性和深度上还有待提升,训练数据的质量可能会影响到生成的答案的质量。
GLM-4 还列出了对文档的总结和提出的问题。值得注意的是这三个问题,都非常值得关注。
![4cfe56c6bac3d9906b4268832d7e0fe0.png](https://i-blog.csdnimg.cn/blog_migrate/e77a11087c688b1c620cf0ac9f732bfb.png)
第三个问题,我认为是最有趣的,即 GPT-4 在哪些方面的表现优于人类数据分析师?在哪些方面不如人类?我非常想知道答案,于是直接点击,让 GLM-4 告诉我答案。
![f129489e60b278e6178ed14b1bac9ba7.png](https://i-blog.csdnimg.cn/blog_migrate/e1779bf0cc73a808a432b15bba00aa4c.png)
我认为 GLM-4 的回答非常好。但是,它缺少了跳转到文章相应部分的链接,也就是说,它没有提供一个方便用户验证的功能。如果没有这样的功能,你很难判断这些详尽的总结是基于主观臆断,还是有确凿的依据。因此,我建议智谱在后续版本中加入这个功能。
数据分析
接下来,咱们看看 GLM-4 的数据分析能力。
![d543cc77997f28ec64540089d560d42b.png](https://i-blog.csdnimg.cn/blog_migrate/3888c554660bae0aa95e9635102231f3.png)
作为样例,我继续使用咱们早已熟悉的 loans.csv 数据集。(如果你不熟悉,不要紧,往前翻我的 GPT-4 数据分析教程)
![e432b9604c023703bfa80ffff61527e9.png](https://i-blog.csdnimg.cn/blog_migrate/b68a161d04c406ffe188b5d2ae65b5dd.png)
我说:“请根据你的经验对该数据集进行分析。”
![c8905ce38fae4fb3595121a6f5bb10a2.png](https://i-blog.csdnimg.cn/blog_migrate/1a14cdc786a35f806d06e1d88cc2b2e7.png)
这样提示的考虑,是尽量减少用户需要具备的专业数据分析知识。让 GLM-4 根据自身的经验来处理,通常能够帮助用户解决知识储备不足的问题。
GLM-4 展示了各种初步分析结果,包括对数据字段的理解。接下来,它表示将进行一些基础的数据分析,询问我想先看哪部分。
![176c27f98d56dd1596d0fcb609c06fae.png](https://i-blog.csdnimg.cn/blog_migrate/fa06c42ea4dde71ad3f45ec18c555c2f.png)
我回答说:“按照你的经验来处理,不用问我。”
于是 GLM-4 决定开始按照以下步骤操作:查看数据集的基本信息、描述性统计、分类列的分布、目标变量的分析特征,以及数值型特征与目标变量的关系。
![fca2cfc25883440680e00d29ddbac6ca.png](https://i-blog.csdnimg.cn/blog_migrate/f86fc4a9341a288f18884faa5339dd3a.png)
它首先对数据进行了全面的审视,提供了记录总数并进行了描述性统计,给出了详细的描述。到目前为止,我认为它的操作和 GPT-4 的类似,都非常规范。它通过生成代码和执行调用来返回处理结果。
![504dd7a5828e9f7a2fe49050654806c2.png](https://i-blog.csdnimg.cn/blog_migrate/746884d742a4aff24f41bf24395e2bc3.png)
接着,GLM-4 展示了一系列基本的统计图表。我很满意。
![e384b5d0b745a59333aeb1578c30eecb.png](https://i-blog.csdnimg.cn/blog_migrate/8bbf518b80b65ea20e43934c28bbe491.png)
GLM-4 结合分析结果,给出了数据的分布情况,比如贷款等级的不均衡分布,借款人数的多寡,以及大多数借款人是否拥有自己的房产等信息。
![77f5b36dea3bb257d6df617601a7d36c.png](https://i-blog.csdnimg.cn/blog_migrate/82313f2802e61cd703f0c1395db88acc.png)
但是,就在这时,GLM-4对话 又突然崩溃了。
![be49c18225ab960b6f588848075fdacf.gif](https://i-blog.csdnimg.cn/blog_migrate/8478c32b68a396a42dc723878df8c356.gif)
我尝试回头查看之前的输出,可惜之前生成的图表全部丢失了。
![b1278e15aa97af4175d65e53ef60a6be.png](https://i-blog.csdnimg.cn/blog_migrate/3ff3dbdf021377e60a850118209692b5.png)
GLM-4 再次表示歉意。
![1e4a8b75565cb7e4764e529fbd781208.png](https://i-blog.csdnimg.cn/blog_migrate/5586a0500ae558561b53e9e0518145d5.png)
我继续重新要求它根据经验分析数据集,但 GLM-4 回答说:“很抱歉,作为一个文本生成的人工智能,我无法直接访问外部数据集或文件。但如果你能提供一些描述,我或许能帮助。”
这意味着一旦 GLM-4 崩溃,之前上传的文件和所有的对话记录就像被抹除了一样。
我只好重新开始,打开了一个新的对话框,再次上传了 loans.csv 文件。
既然我们已经看到了基本的分析和可视化结果,我决定这次跳过基础分析步骤,直接让 GLM-4 为我构建一个预测模型。
![098a61300c08d413d98d99a04aa22afa.png](https://i-blog.csdnimg.cn/blog_migrate/2698cfd1ff8405faf9f00d56d40fba8c.png)
为了处理这个任务,我还尝试使用了 CoT(思维链)激活,以便让 GLM-4 在分析中更加沉着、加深思考。
GLM-4 开始解读数据。
![027cbe65330679f357bfe2c35c381a41.png](https://i-blog.csdnimg.cn/blog_migrate/6206bae7c2de88bc6b0b3d98fdf228da.png)
然后它加载数据并查看基本信息。这些步骤看起来和之前重复了,但由于 GLM-4 崩溃,会话重启,GLM-4 已经忘记了之前的操作,所以也不得不重新开始。
GLM-4 列出计划,进行数据描述、检查缺失值和数据可视化。
![a4229027e6d726a03194f7a1204ec477.png](https://i-blog.csdnimg.cn/blog_migrate/cd3fa1bb78902a084a90c183b33a5dbb.png)
首先,GLM-4 提供了基本的统计信息,包括数据特征的情况、是否有缺失值、特征分布情况以及均值等。
![d0596e8eb4358f69eb426335ebf40dc7.png](https://i-blog.csdnimg.cn/blog_migrate/93ae4a6c8e88980abead01331c1c2541.png)
之后,GLM-4 开始进行可视化工作。生成代码并制作了一些直方图。
![6e437327fb5b993883ad1a2ad6e683a8.png](https://i-blog.csdnimg.cn/blog_migrate/0d7944c6cf956d412f91dfe5cbca54fc.png)
GLM-4 继续进行后续处理,提出需要对数据进行编码。
![8ddc2a91d80e61e7e7e7c1d76a1bb8e5.png](https://i-blog.csdnimg.cn/blog_migrate/ec84de287cf25cfce56f20af627702c1.png)
编码方式使用的是 one-hot encoding(独热编码)来处理。
可惜,在生成代码并完成处理后,GLM-4 又一次报告了错误。
![02d7eec94c0a291e8efe6f3531361179.png](https://i-blog.csdnimg.cn/blog_migrate/6540e2a8c608b90ccbc633686437ff77.png)
好在一旦出现错误,GLM-4 会尝试自动进行纠正,而不需要用户指出错误来进行修复。
![a92127f01c9dce56340f04e76ce758fd.png](https://i-blog.csdnimg.cn/blog_migrate/1791aa0bc33bec6fb6a5ba9d0190dc92.png)
每当出现错误时,GLM-4 都会先向我道歉,然后开始自我反思,并尝试重新处理问题。如是者三,终于成功输出了一系列特征的数值结果。
![32a09c28670ba8c1e44b6d5989b12ceb.png](https://i-blog.csdnimg.cn/blog_migrate/fc1eb4aa836ac4e788716f1de3e08153.png)
在这个基础上,GLM-4 准备继续进行下列步骤。
![26ea05d0e395c69ebec5e16d8e938f5b.png](https://i-blog.csdnimg.cn/blog_migrate/4fd3d3638ea9dd2c81e8c6fffe37b3b0.png)
这些操作包括特征选择、训练和评估等。
![6c1dd920ae00c919b8777550074dfecc.png](https://i-blog.csdnimg.cn/blog_migrate/983cf971ffcb2251571b816669a6b442.png)
在特征选择方面,GLM-4 首先分析了不同特征的重要性,并列出了它们的重要性。
![1181957feba52422bec4ab5d5829a236.png](https://i-blog.csdnimg.cn/blog_migrate/c911f9b252cbf2fcf34fce656110c57a.png)
然后它选择了最重要的 10 个特征来训练模型,使用随机森林模型进行交叉验证,并评估了模型的性能。
最后,GLM-4自动解读了结果。随机森林模型的交叉验证平均准确率为59.59%,同时也报告了标准差。
![a501d8dbafe342f885c771c6690d6518.png](https://i-blog.csdnimg.cn/blog_migrate/b0af612b67d373b67f220c6edd817b68.png)
GLM-4 表示,这是一个相对不错的开始,但仍有提升空间。
![e2fe8a0133665ef79861074baf628fc3.png](https://i-blog.csdnimg.cn/blog_migrate/a1fed1356cc6bc74b4e505987d94fc77.png)
我特别不喜欢大型模型对我说「你可以这样那样做,来进行改进」。如果我需要自己来做这些,那我还需要你这个人工智能模型来做什么呢?
我告诉 GLM-4,好吧,既然你提出了改进的建议,我才不会亲自去执行。请你根据自己的建议,一步一步地思考,尝试改进模型的效果。
![e183712dfc2522630d0346b085701ffb.png](https://i-blog.csdnimg.cn/blog_migrate/fb6f2a502f9de73168e2793037a01f1c.png)
GLM-4 开始嘟囔说,我将进行特征工程,添加一些基于时间的特征。
它使用了贷款的月数这一特征,将其纳入分析,以查看是否能提高性能。很快,GLM-4 表示已经成功地添加了两个新的交互特征。
![7228f196264e5ce6891d69359b39ce3c.png](https://i-blog.csdnimg.cn/blog_migrate/2e38498e45d66c7408f06c2124680961.png)
接下来,GLM-4 定义超参数网格并执行网格搜索(Grid search),然后评估最优模型。
可惜,GLM-4 突然停下来,然后说出了错误信息,提示其他操作仍然可以正常使用,并要求重试。
![05eee605db563a9beccc7ba3e333b9cf.png](https://i-blog.csdnimg.cn/blog_migrate/a5e61020ce41f086d4dc32c2cad0fb24.png)
我特意去查看了一下,打开了默认折叠的源代码来看,并没有看到具体的错误信息。
我告诉 GLM-4 继续处理刚才的错误。很快,它又一次报告了错误,并提示其他功能仍可正常使用,请我重试。
![3592ccff560c3f26bd5180b65fbf8b71.png](https://i-blog.csdnimg.cn/blog_migrate/7851228e499bac8fc869aec34862ac67.png)
可我该如何重试呢?我建议 GLM-4 应该能够提供错误的具体原因。不要只是给我一段代码,然后告诉我说这出错。
在数据分析中,用户的决策主要是为了决定是否继续某个步骤,比如刚才提到的网格搜索。我是否可以在改进特征选择后跳过网格搜索,直接进入下一步。但如果我不知道错误的具体原因,我怎么知道是否值得让 GLM-4 重新尝试?
我建议 GLM-4 应该提供给用户更详细的错误提示信息。至少要告诉我错误的类型和一些简单分析,这样我才不会盲目尝试。
高级联网
接下来咱们尝试的功能名为 “高级联网”。起初我对这个名称感到困惑,不清楚它的具体作用。
![8c465653e38ab7c3e3c1d98964957dd2.png](https://i-blog.csdnimg.cn/blog_migrate/ed35e9b1686d8de96ccd0e1520f556cc.png)
后来我了解到,这个功能实际上就是个 Perplexity 。在这个智能体中,GLM-4 可以访问大量资料,并结合强大的语言模型能力来回答问题。
我请它帮我「查找天津师范大学的王树义老师的信息」。GLM-4 显然进行了一些在线搜索,尽管我不确定它使用了哪个搜索引擎。
![7b5a5774a12ea0a3311a6a1f4e21eda5.png](https://i-blog.csdnimg.cn/blog_migrate/e97982f798b3648088b9724dbdd5eaa2.png)
GLM-4 提供的信息中包含了多处引用链接,第一段就有三个,后面的段落也有。这些信息涵盖了我目前的工作单位和研究领域。它还专门提到了我的教育背景,包括我在南开大学计算机系获得的学士和博士学位,以及我在教育和专业领域的丰富经验。
接着,它描述了我感兴趣的领域,我参与的课题,以及我与张庆薇、张晋合著在《图书情报知识》上发表的论文。
此外,GLM-4 还提到了我在知乎等社交媒体平台上的活跃,分享关于科研工具和技术的见解和经验。「这些活动不仅在教学和科研方面取得了成就,还对学术界和公众产生了积极影响」。我对这些赞誉表示感谢。
特别是,因为 GLM-4 在回答中提供了相应的参考链接,你可以点击直接跳转到相关页面。
![1522dffd7fc7f034a6cbd42481f778a6.gif](https://i-blog.csdnimg.cn/blog_migrate/5c03ebf13f7af14f559d90d7ab719dd2.gif)
接着,我进一步询问:“王树义老师在 B 站上最近发布了哪些视频?” 它首先在线阅读了有关我在 B 站最近视频的信息,然后打开了网页。值得注意的是,GLM-4 确实访问了 B 站,打开了我的个人空间,然后查到了好几个相关的视频网页。
![5f41e5024ceea635e5a358ff1c0a1d3e.png](https://i-blog.csdnimg.cn/blog_migrate/f1c15f0838397bf3a543a1b7db0aa2c7.png)
这些视频包括科研 AI 辅助工具 Elicit、卡片笔记工具 Roam Research 以及 Logseq 标签的使用基础,如何使用人工智能阅读论文的 Explain Paper 演示,以及 Roam Research 的成本问题,如何使用语音进行卡片笔记的 一站式 AI 应用 AudioPen 等。在一次查询中,它总共打开了九个网页并进行了总结。
![edc73e00dd17b0efba115390084cd234.png](https://i-blog.csdnimg.cn/blog_migrate/3f499bbc4bc5c0e7c6e5ec61265241eb.png)
但总结的结果却令人失望。GLM-4 说尽管尝试了多种搜索方式,却未能找到关于我在 B 站上最近发布的视频的具体信息。它表示确实找到了一个我发布的视频,发布日期是 2022 年 10 月 25 日。但对于我在 B 站上最近发布的其他视频未能提供具体信息,并建议我直接访问 B 站搜索我的个人空间。我不禁想问,那刚才你忙活了什么呢?
![3c96308995afe788e1834863f866d520.png](https://i-blog.csdnimg.cn/blog_migrate/d9cf8aac1164b7d8e9622e999ddb837b.png)
我检查了 GLM-4 打开的网页,明明找到了符合要求的相关链接,但 GLM-4 却坚称没有找到,令人颇为不解。
小结
GLM-4有些功能确实让人印象深刻。例如绘图功能完成度很高,质量也很好;数据分析方面也做得不错,特别是能够自动生成预测模型,显示出GLM-4在软件包配置和调用执行方面的能力。当分析结果显示准确度不高时,GLM-4还能提供合理的分析和建议。我认为,这对于国内的研究人员,特别是IT和数据科学之外专业的研究生来说,会很有帮助。
GLM-4也有一些地方需要改进。首先是输入文本的长度限制,我希望它能够处理更长的文本,至少超过8000字符的文章扔进去不要报错。其次是错误处理方式。我建议提高GLM-4的稳定性,至少在出现对话崩溃时,不要丢失之前的所有输出。
你尝试过后,对 GLM-4 有什么使用体会?欢迎留言,咱们一起交流讨论。
祝 AI 效率工具使用愉快!
点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标。
欢迎订阅我的小报童付费专栏,每季度更新不少于10篇文章。订阅一整年价格优惠。
![2359e1ddc8fa396ef01139a46806d2df.png](https://i-blog.csdnimg.cn/blog_migrate/086a714457d263c693d2616dddcfdaa9.png)
如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。
![ff94e621d1e296f9f1f8018c9dd39c25.jpeg](https://i-blog.csdnimg.cn/blog_migrate/09beeafcaffbc51985386e9637fec9e7.jpeg)
若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。