雷猴哇!又是我:annus mirabilis前来报道!今天我们不聊别的,就来聊聊AI圈最近这个“卷”到不行的——深度研究功能!
前一阵子,各大AI公司不是都陆续推出了他们自己号称能做“深度研究”的功能吗?想着这下查资料可方便了。结果我最近发现,我的天呐,他们竟然又进化了!而且感觉是那种——进化不完的感觉!
比如说,我最近的新欢,呃... 曾经的新欢 Grok,他就推出了一个叫作 DeeperSearch 的功能。听名字就知道,是要更 Deep、更深、更详细的意思。至于它到底有多深?有没有比较好用?有没有比较准确?别急,等一下我们直接上手,实测给大家看!
又或者像我们的老朋友 Gemini。虽然最近好像没吆喝着推出什么新功能,但实际上… 他们!竟然!偷偷!地!把它!改得!更!好!用!了!真的!
你们还记得上次我实测 Gemini 的时候,当时我觉得它的“深度研究”功能,测出来感觉更像是 Perplexity 那种,比较快速、比较简单的查询?结果这次,Gemini 大概是每几个月就会给我一次“大惊喜”,就是那种你感觉它瞬间突然间突飞猛进,变得非常非常强大!
为什么我这么说?就是因为最近它的深度研究功能,突然变得超级无敌好用!不仅详细、而且准确度飙升,你能非常强烈地感受到,他们就是在卯足了劲儿追赶 ChatGPT 的进度喔!真的是 Amazing!用起来特别顺手。
而且更绝的是什么?他们现在还有【免费额度】喔!对!你没听错,免费就能体验到这么强的深度研究!所以啊,如果想玩的话,赶快玩起来!
看到这里,你们说,现在这位“深度研究龙头宝座”的持有者 ChatGPT,是不是已经在冷汗直流了?他们的这个宝座,到底有没有被撼动?又或者,他们跟其他AI工具到底差距有多大?或者,如果你是今天才想开始尝试用AI做深度研究,不太确定该挑哪一个?别担心,今天我就来一起实测,给大家一个最直观的答案!
话不多说,我们直接开始吧!
【参评工具介绍:谁有免费午餐?】
首先,我要先来介绍一下,今天参与评测的AI工具,哪些是你可以免费使用的!
今天我们总共会介绍四款AI工具:Grok、Gemini、Perplexity,还有 ChatGPT。deepseek么,再等等.......
好消息是,除了 ChatGPT 之外,其他三款都是有【免费额度】的喔!等一下你看完实测,觉得“哇!这个好酷!好想自己试试看!”的话,就可以立刻打开电脑或手机,免费用起来了!感觉我很贴心,就点个关注哈!
【第一轮较量:比拼生成报告的速度和详细度!】
好,第一项实测,我们要来比拼一下:做一份“深度研究”报告到底需要花多少时间?以及产出的报告有多详细?
我观察到了一个现象,就是这些AI工具花的时间,跟它们给出资料的详细度,大约是成正比的。花的时间越长,报告通常越详细。
但是! 这里有一个【超级大重点】——准确度!它跟花费的时间和详细度完全是两码事!所以准确率这个部分,我们等一下会拉出来【另外重点讲】,因为某个选手的表现… 真的有点出乎意料。
另外,深度研究需要花多少时间,有的时候跟你使用的“时段”也有关系喔!比如 Gemini,我实测的时候,有时候花20分钟,有时候10分钟。所以,下面的实测时间,大家就当作一个参考值就好,知道个大概范围。
我们的实测主题呢,统一用一个对大家来说都很实用的话题:“巴塞隆纳自助旅行指南”。我们会让每个AI都生成一份这份指南,来看看它们要花多少时间,报告里资料有多详细等等,来做个对比。
首先登场的是 Grok!
在 Grok 的界面里,你可以选择 DeepSearch 和 DeeperSearch。免费版也都可以使用。
实际跑下来,结果如下:
- 基本版的 DeepSearch:花了 2分14秒。
- DeeperSearch:花了 5分钟。大约是两倍的时间!
好,那我们来看看报告长啥样。
DeepSearch 给我的报告,说实话,比较简单啦。你看它给的景点、交通方式,就是一两句话带过。感觉就是你对巴塞隆纳完全不了解,用这个功能可以很快有个大概的印象。但如果你已经有点概念了,来看这个报告会觉得“嗯… 好无聊喔”,好像没学到啥新东西。
我觉得 Grok 的 DeepSearch 比较偏向快速简单的查询。比你平时跟它聊天能获得的字数多一点,让你快速了解一个新事物。优点就是速度非常快,一两分钟搞定!因为它和其他的深度搜索功能比起来,动辄五分钟、十几分钟,它这个速度是真香。字数呢,它给了我 1,589字。
再来看 DeeperSearch,它花了五分钟写的,字数是 2,865字,基本就是 DeepSearch 的两倍!
但我发现一个很有趣的事情:它看过的 Source 并没有多很多!DeepSearch 看了 33个,DeeperSearch 看了 38个。竟然只多了五个 Source,但报告详细度却差这么多!
你看 DeeperSearch 的报告,明显详细多了。随便一滑,马上就看到它在景点部分做了一个【超级精美的表格】!交通部分也写了一大串,不像 DeepSearch 就一两句话。
拿景点来说,它给了我 12个景点 (又是两倍!)。而且是直接整理成表格,包含了开放时间、特色、票价,甚至还贴了预定门票的网站链接!不过这个链接嘛… 通常点进去都不会是官网,不知道为啥,像我点进去就是 Klook。大部分人应该还是想点官网吧,第三方平台有时候总觉得不太可靠。
而且,Grok 的 DeeperSearch 是唯一一个把景点整理成表格,还包含开放时间和票价格式的。虽然票价写的是不是对的还不好说,但这个心意还是很到位啦。
我觉得 Grok 的 DeeperSearch 在这次所有评测工具里,是一个中间值。它花的时间、报告详细度,都属于中段班。效果不差,但它的准确度… 真的【有待加强】。
接着是选手二:Perplexity!
Perplexity 总共花了 4分04秒。 总共写了 3,696字,比 Grok DeeperSearch 又多了一些。
快速浏览一下报告。它里面提到了旅游最佳季节,这个是其他AI都没有提到的点,不错!必访景点部分等下我们细看。还有巴塞隆纳的区域介绍。交通部分写了一大段,也算不少。美食部分有提到。实用旅行建议,安全问题几乎每个AI都会提,中规中矩。
我们回到景点的部分,它给了我 5个景点。虽然数量不多,但它花了比较多的篇幅去介绍【每一个景点】。每个景点都写了这样一大段,让你能比较快地了解每个景点到底看什么。不像 Grok 就是快速带过。
不过,Perplexity 就不会像 Grok 那样把开放时间、票价这些都列出来。而且只给5个景点,如果你稍微做过功课,这5个景点你肯定听过,所以能参考的程度其实不是很高。交通部分讲的也不是特别详细,只是大概说了下主要交通工具。
我觉得 Perplexity 的整体效果也是【讲求快速,点到为止】。它带你快速了解一个主题。效果我觉得跟 Grok 的 DeeperSearch 差不多,但是【预告:准确率会高不少】!这款的优点大概就是:速度快、很准、而且是免费的! 很适合快速入门或者随手查资料。
然后是选手三:Gemini!
Gemini 这款,怎么说呢… 它给我的感觉就是:很不稳定! 它的花费时间落差真的非常大。
为什么呢?我昨天已经在实测这几款AI了,用 Gemini 搜寻巴塞隆纳指南。结果第一次测,20多分钟它卡住了! 没错,花了我20分钟,还没出结果!
后来我测了第二次,这次跑出来了,花了 19分35秒 (就是你们现在看到的这份报告)。做完我又觉得怎么这么久,今天我又测了第三次,结果… 竟然只花了 10分钟!这个落差大不大?!而且报告的品质,也就是详细度,也是不一样的!
我们刚才说,它花的时间跟详细度约成正比。你看,我测第二次跟第三次差两倍时间,内容详细度也差两倍!
- 第二次 (时间长):10,280个字。我的天,发生了什么?!
- 第三次 (时间短):4,491个字。差不多也是两倍的差距!
同一个功能,出来效果差这么多,也是很神奇。
好,我们先快速带大家看一下两个版本差在哪。先看字数多的这个版本!
天呐,我这样滑,有没有觉得它很像 ChatGPT 做出来的那种,字数多到爆炸、超级无敌详细的感觉?!它有好多好多表格。你看交通部分,从这里一直写写写,写到下面,一大段!真是疯了! 它就是花了20分钟在这里狂写!
还没结束!再继续往下,还有好多!它就是真的很细,真的非常细!美食部分给了非常多建议,推荐好多餐厅。还会给你按主题分类的行程,喜欢建筑、艺术、美食的,帮你先安排好。
而我觉得【最重要、最惊讶、最惊艳】的地方,是最后的实用资讯部分!它里面会告诉你旅客应该知道的事情,比如签证、换货币、语言沟通,以及——紧急联络方式!
它把那些紧急求救电话全部都写出来了!而且最关键的一个,驻西班牙代表处!它连电话都写出来!而且我真的去查了!它写的竟然是**对的!**各位!我查了!就真的是一样的!
而且呢,它现在还附带了一些我觉得蛮实用的功能。可以直接导出到 Google Document,而且导出之后,它还帮你把【章节分好】!你看,导入进来,这边全部都帮你整理好了!真的是吓死人欸! 这样你要翻阅查资料多快啊!想查求救电话,往下一拉立刻找到!
除了 Google 文件,它现在也可以汇出 Podcast!就是我用过的 Audio Overview 功能。目前只有英文,但如果你想通勤时或者休闲时,用听的方式了解巴塞隆纳,就可以直接导出成 Podcast,会是一男一女在讲话,而且讲得非常自然!没看过的朋友可以去看一下上一集。
但是!这个功能真的有一个【大缺点】,就是我们刚才说的【不稳定】!测两次,花的时间、写出来的字数都不一样!
我们拿景点做指标。
你看,这边一大串全部都是景点!从这一段开始一直到下面,它总共给了我 7个景点。每个景点都给了超级长的介绍内文。
而且,虽然它没有像 Grok 那样列出开放时间、位置、票价,但它在下面竟然又给了我 “其他值得探索的景点”一大串名单!这边全部都是它觉得旅客也值得去的!是不是【非常贴心】?!它给的景点数量和推荐范围,是我们今天实测五个里面最多的一个!
好,现在我们来看看简短版本差在哪边。
快速滑过去看。你看,景点部分,交通部分就只有这一小段。从这边到这里。有没有!【很明显的落差】!很明显看得出来字数少,整理的内容也没那么精细。美食篇幅算不少。
然后,【比较的重点来了】!我们刚才说长篇版本给了我们一些非常重要的补充资讯,比如紧急电话。它这边也有写!就这一段东西。而且它【一样给了我们紧急电话】!但是有没有发现,它紧急电话的篇幅非常短!
看完这个紧急电话的落差感,再回到景点。景点部分它其实一样给了我们 7个景点。就是这些基本的景点它都会写出来。但是!它就没有给我们刚才那个【多余的景点名单】了。会稍微小小的可惜一点。
所以,我觉得 Gemini 这一款,它的不稳定性算是有一点可惜。因为你知道它的能力明明可以达到长篇那个样子,但有时候你用它,效果却没有那么好。真的是还蛮可惜的啦!
最后一位选手:ChatGPT!
我觉得 ChatGPT 就是一直都还蛮稳定的。它产出报告的时间固定就是十几分钟。像今天这一篇,它花了 14分05秒。 产出了 7,164个字。
我们来看看它的报告给了些啥。首先,有一个建议行程,分成三天、五天、七天,不错!然后开始是必访景点,这些都是一定会提到的经典景点。接着是一大串的美食介绍!然后还有一些分主题的部分,比如你想看建筑、艺术,可以去哪些地方,这其实也算是景点的一部分。还有夜生活、酒吧,购物、特色市集,这些也是如果你想要享受不一样行程的话,它都有列出来。
所以有没有发现,它给我们的景点其实算是【蛮充足的】!非常充足!
接下来是住宿地点的建议,蛮贴心的!再来是交通,非常大段!非常大段!有没有发现它真的是【非常的细】!ChatGPT 真的是很稳定,然后很详细!
最后还有一段我觉得非常实用的——预算建议!你今天想穷游还是奢华游?可以稍微看看你每天大概花多少钱,好有个预算概念。我觉得这个也【非常贴心】!
最后还有一个旅游小贴士。这个贴士不是的用词,不过来看一下下面的内容。这边就是讲一些需要注意的地方,比如深夜不要乱走什么的。但是它就没有像 Gemini 提到一些紧急求救电话的部分啦。就是这样小小的差异。
如果拿景点出来看详细度,我会觉得它给的【非常非常够力】!介绍的部分非常非常的细,从刚刚一直到这边,都是在介绍景点。非常给力!
【第一轮总结:报告细致度排名!】
综合速度和报告详细度,我们来排个名:
- 报告最简单:Grok Deep Search (很快,但很基础)
- 中等详细:Grok DeeperSearch ≈ Perplexity (速度和详细度差不多,Grok DeeperSearch 排版更精美,Perplexity 补充信息独特)
- 相当不错 (但不稳定):Gemini (能产出质量最高的报告,但时好时坏)
- 最细致 (且稳定):ChatGPT (报告最全面、最详细,而且很稳定)
所以,我个人觉得,ChatGPT 现在的这个深度研究【龙头宝座】,还没有被完全夺走!但是,我觉得【危险了】!因为我觉得 Gemini,它其实有那个能力做到第一名,只是可能有时候算力不足,或者太多人在用,它就没有办法完全展现实力。
何况,他们的价格是有落差的!Gemini 可以免费用(有额度),但 ChatGPT 你一定要订阅 Plus 或 Pro。Plus 一个月20美金,用个10次深度研究,其实也不是很多。这个价格因素,让 Gemini 的潜力显得更有威胁性。
【第二轮较量:见真章!准确率大考验!】
好!现在进入【最关键】、【最刺激】、【最能见真章】的环节——准确率!
为什么说它最重要?因为你今天花那么多时间,等它吭哧吭哧做出份报告,结果里面的东西都是错的!那不是很尴尬吗?!所以,准确率比什么都重要!
我们都知道 AI 的深度研究【一定会出错】,但这个【机率到底有多高】?而且每一款 AI 出错的机率还不太一样!
我刚才为了测试,刚好查了一个东西,我觉得非常适合拿来做这个准确率的题目!这个题目就是:“各款AI的深度研究到底需不需要付费?哪些是免费的?”
这件事要查,其实也不是特别难。但难就难在,这个资料有新旧的新闻。比如二月份,ChatGPT 可能只有 Pro 用户才能用深度研究;但这个月 Plus 也可以用了。这种【动态变化】的信息,有些AI真的分不太清楚,甚至!有些AI会写错【自己的订阅方案】!太尴尬了!
我们现在就立刻来看一下吧!
首先来看 Grok 的准确率!
我问它,其他AI的深度研究需不需要付费。我们直接看它的答案:
- 关于 ChatGPT:它说 Plus 计划不包含深度研究功能。这个真的是【大错特错】!我们知道 Plus 现在每个月可以用10次!
- 关于 Gemini:它说 免费版仅提供基本功能。这个也是【错的】!现在免费版也是可以用十来次深度研究的!
- 关于 Grok 自己:它说 深度研究需要通过 X 的 Premium 订阅,无免费深度研究选项。这个真的是【大错特错】!尴尬的来了!它连自己的订阅方案都讲错了!
- 关于 Perplexity:它说 Pro 计划提供深度研究方案,免费版只有基本搜索。这个也是【错的】!Perplexity 的深度研究是有开放给免费版的!
结果:4个问题,Grok 全部答错!【4/4 全错!】
这个机率要多高啊?!
所以,我个人是绝对不会用 Grok 来做深度研究的。而且我之前不是说我很爱它嘛,真的有用它来规划过旅行。结果查一些开放时间、火车班次、火车票价什么的,基本上就是会全错! 我还得自己再去查一遍。这样用起来真的会有点窒碍难行,因为你根本不知道它给的信息哪些能信!
Grok 在准确率方面的表现,只能说——很!差! 真的太尴尬了。
再来看选手二:Perplexity 的准确率!
好,我们来看 Perplexity 怎么说:
- 关于 Gemini:说将此功能免费开放给所有的 Gemini 用户。这个【没有错】!答对了!
- 关于 Perplexity 自己:说为免费用户提供少量使用次数。这个也是【对的】!免费可以用深度研究。
- 关于 Grok:说免费用户请求次数更少。这个也是【对的】!免费用户也可以用,只是次数少。
- 关于 ChatGPT:说深度研究功能可能主要面向付费用户。这里有点可惜,没有讲到 Plus 和 Pro 的区别。
结果:3-4/4 对。 跟刚刚 Grok 比起来,是不是差很多?!它基本上每一个都讲对了。所以 Perplexity 的准确率其实算是【蛮高的】!而且这是我用【免费版】Perplexity 测出来的!
再来看选手三:Gemini 的准确率!
Gemini 的表现如何呢?
- 关于 Perplexity:说免费方案使用者每天最多可以进行五次的查询。有没有发现它比较详细!连次数都提出来了!刚刚 Perplexity 只说了“少量”,没有这么明确。这个【对的】!
- 关于 ChatGPT:在付费模式这边,它就提到 Pro 用户可以用120次一个月,然后 Plus 跟其他订阅方案每个月可以用十次的深度研究功能。这个是【非常精确、精准】的回答!对了!刚刚没有哪个AI像它这么明确!
- 关于 Gemini 自己:说 Gemini 用户可以免费试用 DeepSearch 几次。这个也是【对的】!你可以先试用几次,要继续用可能得付费(指更高频次或特定功能)。
- 关于 Grok:说 Grok 的 DeepSearch 已经免费提供给所有 X 用户。也就是免费啦。这个也是【对的】!
- 关于 Perplexity:说 深度研究是对所有使用者都是免费的,只有 Pro 订阅者可以无限次使用 DeepSearch,然后免费方案的话每天可以进行五次的查询。这个也是【对的】!
结果:5/5 全对!
有没有发现!Gemini 它是【最详细的】!刚才这样看下来,它的回答真的是又很准确,又非常详细! 而且它全部答对,这个是最重要的!
目前看起来,Gemini 和 Perplexity 的准确率都很不错!
最后是选手四:ChatGPT 的准确率!
ChatGPT 怎么说呢?它直接把需不需要付费的说明全部放在一起了。
- 关于 ChatGPT 自己:它第一个就讲错了!它连自己的功能都讲错了!它说深度研究只有向专业级的用户开放,你需要订阅 ChatGPT 的 Pro 方案才可以使用。但是其实现在 Plus 也可以啊!下面甚至还强调“将逐步开放给 Plus”,但它测试当下【就已经开放了】!所以这部分跟 Grok 一样尴尬,连自己提供什么服务都不知道,哈哈哈哈哈哈哈!
- 关于 Gemini:说一般用户免费使用 Gemini 基本功能,还有少量深度研究的额度。这个【对的】!
- 关于 Grok:说 Grok 深度研究需要付费。这个是【错的】!
- 关于 Perplexity:说深度研究每日对免费用户有限制,就是可以五次。这个【对的】!
结果:2/4 对。 准确率也没有说到非常的好。
【第二轮总结:准确率排名!】
最后总结一下准确率的部分:
- 准确率最好的是:Gemini (毋庸置疑!)
- 第二好的是:Perplexity
- 第三好的是:ChatGPT
- 最烂的是:Grok
这样你就会去权衡了,这个 ChatGPT 到底付的值不值得?它虽然给你那么多资料,但是里面如果错的机率这么高的话,好像就没有那么划算。因为其实做这种东西,最重要的还是准确率!
如果 Gemini 可以把准确率做到这么高的话,其实就会觉得付费使用下去,会比较心甘情愿吧?特别是考虑到它还有免费额度!
【我的个人使用体验:AI深度研究在生活中有多神?】
就像我自己,发现 Gemini 的 Deep Search 变好用之后,我就有【疯狂的拿它来做一些日常使用】!
例如说,我在买东西的时候,我就可以用它来查一些评价啊什么的。而且我觉得它【很厉害】!它可以区分出不同产品的名称!
因为像化妆品名称都长得很像,比如都是某个牌子的防晒乳,但它有很多系列,名字差不多。可是 Gemini 它都可以分清楚! 它会在报告里写:“这个防晒乳跟另外一个名字虽然差不多,但成分只差在哪里,你可以把它们看作同一个产品…” 它会给你解释清楚!不会像其他的 AI,错了就错到底,把它当成正确答案往下写。这是很多AI的通病。但目前看到 Gemini 这方面做得相当不错,会明确区分相似的名字。
而且用这个功能【非常好用】的一点是,它可以快速帮你查到国外的评论!你就可以叫它去查欧洲、美国相关的评论。这个真的【太方便了】!
因为它会帮你搜寻 Reddit、很多不同的美妆网站或论坛。它甚至还会帮你看一些影片!比如 YT影片、TT视频,它会【总结这些影片里面的重点】!你就不用自己再去看了!这要节省多少时间啊!真的太值得了!
所以大家如果对于这个功能有兴趣的话,也【赶快去玩玩看】!我觉得它不只是在工作上面用得到,我觉得在生活上面,真的是助益也是非常的大! 可以帮到你很多!
好了,今天的大比拼就到这了,希望我的这次的实测对比,能帮助你更好地选择适合自己的 AI 深度研究工具!