Grok、Gemini、Perplexity、GPT火拼了？深度研究实测

annus mirabilis

于 2025-04-30 17:29:13 发布

阅读量951

点赞数 23

分类专栏： AI实战文章标签： gpt chatgpt 人工智能

本文链接：https://blog.csdn.net/igwork/article/details/147635626

版权

AI实战专栏收录该内容

64 篇文章

订阅专栏

雷猴哇！又是我：annus mirabilis前来报道！今天我们不聊别的，就来聊聊AI圈最近这个“卷”到不行的——深度研究功能！

前一阵子，各大AI公司不是都陆续推出了他们自己号称能做“深度研究”的功能吗？想着这下查资料可方便了。结果我最近发现，我的天呐，他们竟然又进化了！而且感觉是那种——进化不完的感觉！

比如说，我最近的新欢，呃... 曾经的新欢 Grok，他就推出了一个叫作 DeeperSearch 的功能。听名字就知道，是要更 Deep、更深、更详细的意思。至于它到底有多深？有没有比较好用？有没有比较准确？别急，等一下我们直接上手，实测给大家看！

又或者像我们的老朋友 Gemini。虽然最近好像没吆喝着推出什么新功能，但实际上… 他们！竟然！偷偷！地！把它！改得！更！好！用！了！真的！

你们还记得上次我实测 Gemini 的时候，当时我觉得它的“深度研究”功能，测出来感觉更像是 Perplexity 那种，比较快速、比较简单的查询？结果这次，Gemini 大概是每几个月就会给我一次“大惊喜”，就是那种你感觉它瞬间突然间突飞猛进，变得非常非常强大！

为什么我这么说？就是因为最近它的深度研究功能，突然变得超级无敌好用！不仅详细、而且准确度飙升，你能非常强烈地感受到，他们就是在卯足了劲儿追赶 ChatGPT 的进度喔！真的是 Amazing！用起来特别顺手。

而且更绝的是什么？他们现在还有【免费额度】喔！对！你没听错，免费就能体验到这么强的深度研究！所以啊，如果想玩的话，赶快玩起来！

看到这里，你们说，现在这位“深度研究龙头宝座”的持有者 ChatGPT，是不是已经在冷汗直流了？他们的这个宝座，到底有没有被撼动？又或者，他们跟其他AI工具到底差距有多大？或者，如果你是今天才想开始尝试用AI做深度研究，不太确定该挑哪一个？别担心，今天我就来一起实测，给大家一个最直观的答案！

话不多说，我们直接开始吧！

【参评工具介绍：谁有免费午餐？】

首先，我要先来介绍一下，今天参与评测的AI工具，哪些是你可以免费使用的！

今天我们总共会介绍四款AI工具：Grok、Gemini、Perplexity，还有 ChatGPT。deepseek么，再等等.......

好消息是，除了 ChatGPT 之外，其他三款都是有【免费额度】的喔！等一下你看完实测，觉得“哇！这个好酷！好想自己试试看！”的话，就可以立刻打开电脑或手机，免费用起来了！感觉我很贴心，就点个关注哈！

【第一轮较量：比拼生成报告的速度和详细度！】

好，第一项实测，我们要来比拼一下：做一份“深度研究”报告到底需要花多少时间？以及产出的报告有多详细？

我观察到了一个现象，就是这些AI工具花的时间，跟它们给出资料的详细度，大约是成正比的。花的时间越长，报告通常越详细。

但是！ 这里有一个【超级大重点】——准确度！它跟花费的时间和详细度完全是两码事！所以准确率这个部分，我们等一下会拉出来【另外重点讲】，因为某个选手的表现… 真的有点出乎意料。

另外，深度研究需要花多少时间，有的时候跟你使用的“时段”也有关系喔！比如 Gemini，我实测的时候，有时候花20分钟，有时候10分钟。所以，下面的实测时间，大家就当作一个参考值就好，知道个大概范围。

我们的实测主题呢，统一用一个对大家来说都很实用的话题：“巴塞隆纳自助旅行指南”。我们会让每个AI都生成一份这份指南，来看看它们要花多少时间，报告里资料有多详细等等，来做个对比。

首先登场的是 Grok！

在 Grok 的界面里，你可以选择 DeepSearch 和 DeeperSearch。免费版也都可以使用。

实际跑下来，结果如下：

基本版的 DeepSearch：花了 2分14秒。
DeeperSearch：花了 5分钟。大约是两倍的时间！

好，那我们来看看报告长啥样。

DeepSearch 给我的报告，说实话，比较简单啦。你看它给的景点、交通方式，就是一两句话带过。感觉就是你对巴塞隆纳完全不了解，用这个功能可以很快有个大概的印象。但如果你已经有点概念了，来看这个报告会觉得“嗯… 好无聊喔”，好像没学到啥新东西。

我觉得 Grok 的 DeepSearch 比较偏向快速简单的查询。比你平时跟它聊天能获得的字数多一点，让你快速了解一个新事物。优点就是速度非常快，一两分钟搞定！因为它和其他的深度搜索功能比起来，动辄五分钟、十几分钟，它这个速度是真香。字数呢，它给了我 1,589字。

再来看 DeeperSearch，它花了五分钟写的，字数是 2,865字，基本就是 DeepSearch 的两倍！

但我发现一个很有趣的事情：它看过的 Source 并没有多很多！DeepSearch 看了 33个，DeeperSearch 看了 38个。竟然只多了五个 Source，但报告详细度却差这么多！

你看 DeeperSearch 的报告，明显详细多了。随便一滑，马上就看到它在景点部分做了一个【超级精美的表格】！交通部分也写了一大串，不像 DeepSearch 就一两句话。

拿景点来说，它给了我 12个景点 (又是两倍！)。而且是直接整理成表格，包含了开放时间、特色、票价，甚至还贴了预定门票的网站链接！不过这个链接嘛… 通常点进去都不会是官网，不知道为啥，像我点进去就是 Klook。大部分人应该还是想点官网吧，第三方平台有时候总觉得不太可靠。

而且，Grok 的 DeeperSearch 是唯一一个把景点整理成表格，还包含开放时间和票价格式的。虽然票价写的是不是对的还不好说，但这个心意还是很到位啦。

我觉得 Grok 的 DeeperSearch 在这次所有评测工具里，是一个中间值。它花的时间、报告详细度，都属于中段班。效果不差，但它的准确度… 真的【有待加强】。

接着是选手二：Perplexity！

Perplexity 总共花了 4分04秒。总共写了 3,696字，比 Grok DeeperSearch 又多了一些。

快速浏览一下报告。它里面提到了旅游最佳季节，这个是其他AI都没有提到的点，不错！必访景点部分等下我们细看。还有巴塞隆纳的区域介绍。交通部分写了一大段，也算不少。美食部分有提到。实用旅行建议，安全问题几乎每个AI都会提，中规中矩。

我们回到景点的部分，它给了我 5个景点。虽然数量不多，但它花了比较多的篇幅去介绍【每一个景点】。每个景点都写了这样一大段，让你能比较快地了解每个景点到底看什么。不像 Grok 就是快速带过。

不过，Perplexity 就不会像 Grok 那样把开放时间、票价这些都列出来。而且只给5个景点，如果你稍微做过功课，这5个景点你肯定听过，所以能参考的程度其实不是很高。交通部分讲的也不是特别详细，只是大概说了下主要交通工具。

我觉得 Perplexity 的整体效果也是【讲求快速，点到为止】。它带你快速了解一个主题。效果我觉得跟 Grok 的 DeeperSearch 差不多，但是【预告：准确率会高不少】！这款的优点大概就是：速度快、很准、而且是免费的！ 很适合快速入门或者随手查资料。

然后是选手三：Gemini！

Gemini 这款，怎么说呢… 它给我的感觉就是：很不稳定！ 它的花费时间落差真的非常大。

为什么呢？我昨天已经在实测这几款AI了，用 Gemini 搜寻巴塞隆纳指南。结果第一次测，20多分钟它卡住了！ 没错，花了我20分钟，还没出结果！

后来我测了第二次，这次跑出来了，花了 19分35秒 (就是你们现在看到的这份报告)。做完我又觉得怎么这么久，今天我又测了第三次，结果… 竟然只花了 10分钟！这个落差大不大？！而且报告的品质，也就是详细度，也是不一样的！

我们刚才说，它花的时间跟详细度约成正比。你看，我测第二次跟第三次差两倍时间，内容详细度也差两倍！

第二次 (时间长)：10,280个字。我的天，发生了什么？！
第三次 (时间短)：4,491个字。差不多也是两倍的差距！

同一个功能，出来效果差这么多，也是很神奇。

好，我们先快速带大家看一下两个版本差在哪。先看字数多的这个版本！

天呐，我这样滑，有没有觉得它很像 ChatGPT 做出来的那种，字数多到爆炸、超级无敌详细的感觉？！它有好多好多表格。你看交通部分，从这里一直写写写，写到下面，一大段！真是疯了！ 它就是花了20分钟在这里狂写！

还没结束！再继续往下，还有好多！它就是真的很细，真的非常细！美食部分给了非常多建议，推荐好多餐厅。还会给你按主题分类的行程，喜欢建筑、艺术、美食的，帮你先安排好。

而我觉得【最重要、最惊讶、最惊艳】的地方，是最后的实用资讯部分！它里面会告诉你旅客应该知道的事情，比如签证、换货币、语言沟通，以及——紧急联络方式！

它把那些紧急求救电话全部都写出来了！而且最关键的一个，驻西班牙代表处！它连电话都写出来！而且我真的去查了！它写的竟然是**对的！**各位！我查了！就真的是一样的！

而且呢，它现在还附带了一些我觉得蛮实用的功能。可以直接导出到 Google Document，而且导出之后，它还帮你把【章节分好】！你看，导入进来，这边全部都帮你整理好了！真的是吓死人欸！ 这样你要翻阅查资料多快啊！想查求救电话，往下一拉立刻找到！

除了 Google 文件，它现在也可以汇出 Podcast！就是我用过的 Audio Overview 功能。目前只有英文，但如果你想通勤时或者休闲时，用听的方式了解巴塞隆纳，就可以直接导出成 Podcast，会是一男一女在讲话，而且讲得非常自然！没看过的朋友可以去看一下上一集。

但是！这个功能真的有一个【大缺点】，就是我们刚才说的【不稳定】！测两次，花的时间、写出来的字数都不一样！

我们拿景点做指标。

你看，这边一大串全部都是景点！从这一段开始一直到下面，它总共给了我 7个景点。每个景点都给了超级长的介绍内文。

而且，虽然它没有像 Grok 那样列出开放时间、位置、票价，但它在下面竟然又给了我 “其他值得探索的景点”一大串名单！这边全部都是它觉得旅客也值得去的！是不是【非常贴心】？！它给的景点数量和推荐范围，是我们今天实测五个里面最多的一个！

好，现在我们来看看简短版本差在哪边。

快速滑过去看。你看，景点部分，交通部分就只有这一小段。从这边到这里。有没有！【很明显的落差】！很明显看得出来字数少，整理的内容也没那么精细。美食篇幅算不少。

然后，【比较的重点来了】！我们刚才说长篇版本给了我们一些非常重要的补充资讯，比如紧急电话。它这边也有写！就这一段东西。而且它【一样给了我们紧急电话】！但是有没有发现，它紧急电话的篇幅非常短！

看完这个紧急电话的落差感，再回到景点。景点部分它其实一样给了我们 7个景点。就是这些基本的景点它都会写出来。但是！它就没有给我们刚才那个【多余的景点名单】了。会稍微小小的可惜一点。

所以，我觉得 Gemini 这一款，它的不稳定性算是有一点可惜。因为你知道它的能力明明可以达到长篇那个样子，但有时候你用它，效果却没有那么好。真的是还蛮可惜的啦！

最后一位选手：ChatGPT！

我觉得 ChatGPT 就是一直都还蛮稳定的。它产出报告的时间固定就是十几分钟。像今天这一篇，它花了 14分05秒。产出了 7,164个字。

我们来看看它的报告给了些啥。首先，有一个建议行程，分成三天、五天、七天，不错！然后开始是必访景点，这些都是一定会提到的经典景点。接着是一大串的美食介绍！然后还有一些分主题的部分，比如你想看建筑、艺术，可以去哪些地方，这其实也算是景点的一部分。还有夜生活、酒吧，购物、特色市集，这些也是如果你想要享受不一样行程的话，它都有列出来。

所以有没有发现，它给我们的景点其实算是【蛮充足的】！非常充足！

接下来是住宿地点的建议，蛮贴心的！再来是交通，非常大段！非常大段！有没有发现它真的是【非常的细】！ChatGPT 真的是很稳定，然后很详细！

最后还有一段我觉得非常实用的——预算建议！你今天想穷游还是奢华游？可以稍微看看你每天大概花多少钱，好有个预算概念。我觉得这个也【非常贴心】！

最后还有一个旅游小贴士。这个贴士不是的用词，不过来看一下下面的内容。这边就是讲一些需要注意的地方，比如深夜不要乱走什么的。但是它就没有像 Gemini 提到一些紧急求救电话的部分啦。就是这样小小的差异。

如果拿景点出来看详细度，我会觉得它给的【非常非常够力】！介绍的部分非常非常的细，从刚刚一直到这边，都是在介绍景点。非常给力！

【第一轮总结：报告细致度排名！】

综合速度和报告详细度，我们来排个名：

报告最简单：Grok Deep Search (很快，但很基础)
中等详细：Grok DeeperSearch ≈ Perplexity (速度和详细度差不多，Grok DeeperSearch 排版更精美，Perplexity 补充信息独特)
相当不错 (但不稳定)：Gemini (能产出质量最高的报告，但时好时坏)
最细致 (且稳定)：ChatGPT (报告最全面、最详细，而且很稳定)

所以，我个人觉得，ChatGPT 现在的这个深度研究【龙头宝座】，还没有被完全夺走！但是，我觉得【危险了】！因为我觉得 Gemini，它其实有那个能力做到第一名，只是可能有时候算力不足，或者太多人在用，它就没有办法完全展现实力。

何况，他们的价格是有落差的！Gemini 可以免费用（有额度），但 ChatGPT 你一定要订阅 Plus 或 Pro。Plus 一个月20美金，用个10次深度研究，其实也不是很多。这个价格因素，让 Gemini 的潜力显得更有威胁性。

【第二轮较量：见真章！准确率大考验！】

好！现在进入【最关键】、【最刺激】、【最能见真章】的环节——准确率！

为什么说它最重要？因为你今天花那么多时间，等它吭哧吭哧做出份报告，结果里面的东西都是错的！那不是很尴尬吗？！所以，准确率比什么都重要！

我们都知道 AI 的深度研究【一定会出错】，但这个【机率到底有多高】？而且每一款 AI 出错的机率还不太一样！

我刚才为了测试，刚好查了一个东西，我觉得非常适合拿来做这个准确率的题目！这个题目就是：“各款AI的深度研究到底需不需要付费？哪些是免费的？”

这件事要查，其实也不是特别难。但难就难在，这个资料有新旧的新闻。比如二月份，ChatGPT 可能只有 Pro 用户才能用深度研究；但这个月 Plus 也可以用了。这种【动态变化】的信息，有些AI真的分不太清楚，甚至！有些AI会写错【自己的订阅方案】！太尴尬了！

我们现在就立刻来看一下吧！

首先来看 Grok 的准确率！

我问它，其他AI的深度研究需不需要付费。我们直接看它的答案：

关于 ChatGPT：它说 Plus 计划不包含深度研究功能。这个真的是【大错特错】！我们知道 Plus 现在每个月可以用10次！
关于 Gemini：它说 免费版仅提供基本功能。这个也是【错的】！现在免费版也是可以用十来次深度研究的！
关于 Grok 自己：它说 深度研究需要通过 X 的 Premium 订阅，无免费深度研究选项。这个真的是【大错特错】！尴尬的来了！它连自己的订阅方案都讲错了！
关于 Perplexity：它说 Pro 计划提供深度研究方案，免费版只有基本搜索。这个也是【错的】！Perplexity 的深度研究是有开放给免费版的！

结果：4个问题，Grok 全部答错！【4/4 全错！】

这个机率要多高啊？！

所以，我个人是绝对不会用 Grok 来做深度研究的。而且我之前不是说我很爱它嘛，真的有用它来规划过旅行。结果查一些开放时间、火车班次、火车票价什么的，基本上就是会全错！ 我还得自己再去查一遍。这样用起来真的会有点窒碍难行，因为你根本不知道它给的信息哪些能信！

Grok 在准确率方面的表现，只能说——很！差！ 真的太尴尬了。

再来看选手二：Perplexity 的准确率！

好，我们来看 Perplexity 怎么说：

关于 Gemini：说将此功能免费开放给所有的 Gemini 用户。这个【没有错】！答对了！
关于 Perplexity 自己：说为免费用户提供少量使用次数。这个也是【对的】！免费可以用深度研究。
关于 Grok：说免费用户请求次数更少。这个也是【对的】！免费用户也可以用，只是次数少。
关于 ChatGPT：说深度研究功能可能主要面向付费用户。这里有点可惜，没有讲到 Plus 和 Pro 的区别。

结果：3-4/4 对。 跟刚刚 Grok 比起来，是不是差很多？！它基本上每一个都讲对了。所以 Perplexity 的准确率其实算是【蛮高的】！而且这是我用【免费版】Perplexity 测出来的！

再来看选手三：Gemini 的准确率！

Gemini 的表现如何呢？

关于 Perplexity：说免费方案使用者每天最多可以进行五次的查询。有没有发现它比较详细！连次数都提出来了！刚刚 Perplexity 只说了“少量”，没有这么明确。这个【对的】！
关于 ChatGPT：在付费模式这边，它就提到 Pro 用户可以用120次一个月，然后 Plus 跟其他订阅方案每个月可以用十次的深度研究功能。这个是【非常精确、精准】的回答！对了！刚刚没有哪个AI像它这么明确！
关于 Gemini 自己：说 Gemini 用户可以免费试用 DeepSearch 几次。这个也是【对的】！你可以先试用几次，要继续用可能得付费（指更高频次或特定功能）。
关于 Grok：说 Grok 的 DeepSearch 已经免费提供给所有 X 用户。也就是免费啦。这个也是【对的】！
关于 Perplexity：说 深度研究是对所有使用者都是免费的，只有 Pro 订阅者可以无限次使用 DeepSearch，然后免费方案的话每天可以进行五次的查询。这个也是【对的】！

结果：5/5 全对！

有没有发现！Gemini 它是【最详细的】！刚才这样看下来，它的回答真的是又很准确，又非常详细！ 而且它全部答对，这个是最重要的！

目前看起来，Gemini 和 Perplexity 的准确率都很不错！

最后是选手四：ChatGPT 的准确率！

ChatGPT 怎么说呢？它直接把需不需要付费的说明全部放在一起了。

关于 ChatGPT 自己：它第一个就讲错了！它连自己的功能都讲错了！它说深度研究只有向专业级的用户开放，你需要订阅 ChatGPT 的 Pro 方案才可以使用。但是其实现在 Plus 也可以啊！下面甚至还强调“将逐步开放给 Plus”，但它测试当下【就已经开放了】！所以这部分跟 Grok 一样尴尬，连自己提供什么服务都不知道，哈哈哈哈哈哈哈！
关于 Gemini：说一般用户免费使用 Gemini 基本功能，还有少量深度研究的额度。这个【对的】！
关于 Grok：说 Grok 深度研究需要付费。这个是【错的】！
关于 Perplexity：说深度研究每日对免费用户有限制，就是可以五次。这个【对的】！

结果：2/4 对。 准确率也没有说到非常的好。

【第二轮总结：准确率排名！】

最后总结一下准确率的部分：

准确率最好的是：Gemini (毋庸置疑！)
第二好的是：Perplexity
第三好的是：ChatGPT
最烂的是：Grok

这样你就会去权衡了，这个 ChatGPT 到底付的值不值得？它虽然给你那么多资料，但是里面如果错的机率这么高的话，好像就没有那么划算。因为其实做这种东西，最重要的还是准确率！

如果 Gemini 可以把准确率做到这么高的话，其实就会觉得付费使用下去，会比较心甘情愿吧？特别是考虑到它还有免费额度！

【我的个人使用体验：AI深度研究在生活中有多神？】

就像我自己，发现 Gemini 的 Deep Search 变好用之后，我就有【疯狂的拿它来做一些日常使用】！

例如说，我在买东西的时候，我就可以用它来查一些评价啊什么的。而且我觉得它【很厉害】！它可以区分出不同产品的名称！

因为像化妆品名称都长得很像，比如都是某个牌子的防晒乳，但它有很多系列，名字差不多。可是 Gemini 它都可以分清楚！ 它会在报告里写：“这个防晒乳跟另外一个名字虽然差不多，但成分只差在哪里，你可以把它们看作同一个产品…” 它会给你解释清楚！不会像其他的 AI，错了就错到底，把它当成正确答案往下写。这是很多AI的通病。但目前看到 Gemini 这方面做得相当不错，会明确区分相似的名字。

而且用这个功能【非常好用】的一点是，它可以快速帮你查到国外的评论！你就可以叫它去查欧洲、美国相关的评论。这个真的【太方便了】！

因为它会帮你搜寻 Reddit、很多不同的美妆网站或论坛。它甚至还会帮你看一些影片！比如 YT影片、TT视频，它会【总结这些影片里面的重点】！你就不用自己再去看了！这要节省多少时间啊！真的太值得了！

所以大家如果对于这个功能有兴趣的话，也【赶快去玩玩看】！我觉得它不只是在工作上面用得到，我觉得在生活上面，真的是助益也是非常的大！ 可以帮到你很多！

好了，今天的大比拼就到这了，希望我的这次的实测对比，能帮助你更好地选择适合自己的 AI 深度研究工具！