AI Native的交互不仅是对话

最新推荐文章于 2024-10-31 17:05:07 发布

wangyuanzju

最新推荐文章于 2024-10-31 17:05:07 发布

阅读量1k

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/wangyuanzju/article/details/141339785

版权

ChatGPT横空出世后，很多人（如Bill Gates）都认为对话式的交互将是一次变革。我去年也写过一篇《ChatGPT让现在的软件都土掉渣了》，关注点也在对话这一块。

但现在看来，当时对GenAI后的交互创新的理解还是太局限、太片面了。最近因为创业的需要，了解了很多相关产品，体感下来，除了对话，还有很多别的交互形态都应该考虑，而且会更自然、高效。

Obsidian/Mem.ai：写作过程中内嵌的对话

有一种交互仍然是对话，但对话不再需要去到一个独立的界面，而是内嵌到当前界面中，只需要通过一个快捷键就可以随时唤起，回复的内容自动添加到当前界面里。

这方面典型的例子有Obsidian和Mem.ai。

Obsidian要装上Text Generator插件，装上后在记笔记的过程中通过Cmd+P召唤出指令窗，找到Text Generator提供的指令就可以调用。

Mem.ai的体验更细滑。在Writer界面，只要敲入/然后输入你想让AI帮你写的内容，AI就会按要求输出并追加到当前光标位置之后。

比如我这篇文章里会简单介绍下Granola这款产品，这时我如下图输入我的指令，

几秒钟后，我就得到了下图的结果，丝毫不打断我的写作过程。

Granola：心有灵犀一点通

Granola是又一个AI Native交互的案例。先简单介绍一下Granola。Granola 是一款智能会议记录工具，不需要机器人参与会议即可使用。它支持 Google、Slack、Teams 和 Zoom 等平台，并且可以一键分享到 Notion 和 Slack。Granola 能够分析会议参与者及其角色，并根据会议类型（如工作面试、销售电话或投资者演示）自动调整笔记结构。

Granola的特色是用户只需输入几个关键词，AI 就能识别出重要内容并进行详细记录。且看下图的官方案例。

Cursor Flow：一路Tab搞定式

以上几个都还是需要用户输入指令的，Obsidian Text Generator和Mem.ai只是省去了拷贝黏贴，Granola只是减少了用户的输入，但正如有句话说的好，无招胜有招，如果用户根本就不用问，不用输入，体验当然就更好。

下面说一个例子。

上周要把笔记从思源搬到Obsidian，但思源的Markdown导出问题很多，所以动手写了个程序来做。因为近期Twitter上吹水Cursor的很多，所以就试了下最新的Cursor，然后就被震惊了。

在试之前，我的预期大概是Cursor可以把对话内嵌的更自然一些，实时补全更准一些，这些果然都做了，但震惊我的不是这些，而是所谓的Cursor Flow体验。

什么是Cursor Flow呢，是指Cursor会预测你下一个要改的地方，然后你经常一路按Tab键，接受这些修改就行了。这些修改包括新增代码，也包括修改和删除代码。

比如有一次我想把我的Markdown输出逻辑整体改一下，当我改了两次之后，我发现Cursor明白了我的意图，接下来我就跟着它一路按Tab，它就不停的在文件里跳来跳去，总共改了差不多二十多处，看起来就完事了。当然Cursor也还没这么完美，测试发现它还是漏改了三个地方，但85%的情况下我只要按Tab就行。这对比较复杂的重构就太有用了，之前我这几十个地方改下来怎么得二十分钟，找和改都需要时间，但现在大概才五分钟。

再举个例子让大家感受一下，有次我想增加一些统计，我现在自函数里加了count、orginal_size和new_size这几个变量，它马上会建议在哪里哪里增加统计代码。而且，当我在外面开始写下total_count后，它马上知道我还要定义total_orginal_size和total_new_size，它就推荐我建好这些变量，然后又推荐我在哪里改这些变量。最后，它居然还会推荐我print出这些变量的值。

从Code Agent到Knowledge Agent

Cursor Flow虽然把过程做的极度丝滑，但毕竟还需要细颗粒度的一处一处修改，大家肯定还期待能够一次性搞定一大坨工作的AI，这就轮到Agent了。

我对于Agent的预期不是很高，之前也写过《养娃已经够糟心了，还想让我再养个Agent？》，我对那种梦幻般的Agent确实不太看好，但这并不是说没有实用的Agent，只是不要太理想化。

实际上，曾经认为很难的智能编程Code Agent也已经有很大的进步了，根据典型开源项目bug fix场景测试，现在好的Agent已经有43%的解决率，还有家Cosine Genie号称做到了50%，只是我在公开的leaderboard上没看到它们家的数据。

Code Agent在大半年前刚出来的时候，解决率可是10%都不到，短短时间就干到50%了。如果Code Agent都能做到这样的水平，用来辅助写作和知识管理的Knowledge Agent应该能做得更好。

比如在知识管理中有一个很大的痛点是碎片化知识怎么形成系统性知识。碎片化知识用flomo或类似的工具可以比较方便的记录好多条，但面对这么多flomo怎么整理也是一件非常头大的事情。这种情况下，我们能不能做一个专门的Knowledge Agent，把碎片化的想法，融合到已有的知识体系里去？技术上应该不会有特别大的挑战。

知识管理是久痕的基础，这方面AI将会有大量的用武之地。

结语

去年我说因为对话式交互，所有的软件都要重造，今天我觉得这话半对半错。错的半句是原因不仅是因为对话式交互，而是因为如上文提到的多种AI Native的交互形式；对的半句是因为有了更多的好的AI Native交互形式，所有的软件就更需要重造了。

【风轻扬：浙大88 BBS网名沿用至今，杭州久痕科技创始人，前网易副总裁、杭州研究院执行院长、网易数帆总经理。
久痕科技：让知识工作更轻松高效。】