Manus到底是什么？

置顶爱吃芝士的土豆倪

已于 2025-03-31 22:50:26 修改

阅读量912

点赞数 10

分类专栏： AI使开发再次伟大文章标签： ai manus

于 2025-03-31 22:47:50 首次发布

本文链接：https://blog.csdn.net/qq_40851232/article/details/146887953

版权

AI使开发再次伟大专栏收录该内容

9 篇文章

订阅专栏

👏作者简介：大家好，我是爱吃芝士的土豆倪，24届校招生Java选手，入职小红书广告投放开发，很高兴认识大家
🔥如果感觉博主的文章还不错的话，请👍三连支持👍一下博主哦
🍂博主正在努力完成2025计划中：逆水行舟，不进则退
📝联系方式：nhs19990716，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬👀

本文共分为三部分，第一部分简单记录了openManus的启动步骤，方便大家在自己电脑上部署自己的opnemanus；第二部分是结合通义千问（免费）来使用openMenus的步骤；第三部分是全面透彻的分析Manus到底是什么？

openManus

1、windows 搜索 Anaconda Prompt

2、conda create -n open_manus python=3.12

3、conda activate open_manus

4、安装git 的环境变量

5、git clone https://gitee.com/devine/OpenManus.git

6、cd OpenManus

7、pip install -r requirements.txt

8、配置 cp config/config.example.toml config/config.toml

[llm]
model = "qwen-plus"
base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
api_key = "sk-b30ab04bc32142cdad67b53f92d15b8e"
max_tokens = 4096
temperature = 0.3

# Optional configuration for specific LLM models
[llm.vision]
model = "qwen-v1-plus"
base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
api_key = "sk-b30ab04bc32142cdad67b53f92d15b8e"

9、python main.py （启动）

OpenManus对接通义千问本地安装与使用感受

生成初版的答案：

Manus最全硬核分析

2025.3.8 manus爆火出圈了之后呢，现在又在快速降温啦，推特的官方账号也被封了，很多人开始说他在炒作了

那么manus到底是不是在炒作，他有没有硬核的创新或者突破呢？agi的时刻真的来了吗？对于普通人到底有什么影响？

在此之前先快问快答下大家的问题：

1、manus是炒作吗？不是

2、manus有硬核突破吗？有

3、agi的时刻来了吗？没有

现在内测账号炒了到5w一个，其实大家完全没有必要买，即使有了也没办法用，因为你没时间等他跑完，因为非常慢，还要调整提示词。可能拿到账号最好的处理方式就是卖掉。

其实官网提供的这些案例就已经很有代表性了，以他纽约买房的这个例子来详细说明一下，打开后，就是一个任务回放，左侧呢使整个的思维过程，右侧是显示的执行窗口

输入一个任务的综述，他要在纽约买一个房子，然后希望有一个比较低的犯罪率，他有一个孩子在上初中，有一个孩子在上幼儿园，他需要考虑到孩子的教育问题，然后他和他爱人的这个收入是多少钱，请你综合考虑上面的因素，帮我找一个合适的房子，做一个列表。

然后我们可以看到manus就开始执行啦

首先manus对整个任务做了一个回顾，接下来开始检索了一下他的知识库，然后就开始执行了一条这样的命令，这个命令就是创建一个todo的文件。这就是一个小的创新点，就是它在整个任务开始执行之前，它会做一个todo list，把所有的任务都输出到这个文件里面，那创建文件的方式呢，就是命令行的方式。那这个就是agent的第一个功能，就是操作文件系统。

那像这种功能呢其实并不是它的创新，很多的agent都能做到。但是创建todo list 是他的一个小的创新点。创建完成之后，他把他要做的每一项都输出到这个文件里面，回头在执行的时候，会在每一项前面打个钩。

接下来它调用搜索引擎搜索了一个关键词：最安全在纽约，低犯罪率。搜出来一大堆结果。

agent调用搜索引擎，这也不是一个新鲜的事情，很多的agent都能做到，调用搜索引擎，本质上也是一个api的调用。我们会把这个搜索引擎封装成一个工具类，一起喂给大模型，大模型可以根据搜索引擎返回的结果，作进一步的选择或者处理。

在这里它选择了其中的一个连接去提取这个浏览这个网页。

继续调用搜索引擎，然后重复上面的操作。

接下来到了第一个局限性

这里卡主了，需要输入验证码，也就是说，它其实并没有办法去解决这种验证码的问题。你看manus下面马上输出了一段话，就是它被验证码卡住了，询问用户想怎么办？比如说它并没有办法完全自动的在后台去执行，它中途还是需要用户去介入的。

刚才为什么说agi没有来，manus改变不了世界，就是因为验证码阻止了它，现在的互联网呢，对机器人并不友好，很多网站都会带着验证码，这个解决不了。

然后用户说跳过这一项。

然后manux继续搜索浏览网页。

然后这里触发了动作叫做向下滚动。提取网页信息

提取网页信息的方式有很多种，最简单的方式，就是像网页发一种http的请求，request get请求，然后拿到的respones就是网页的信息，但是很多情况下，这种方式是用不了的，因为很多网页会用加密的方式，它的整个网页的这个html的内容呢，并不是直接明文返回给你的，而是通过加密方式返回的，或者通过js执行的方式来渲染的。这种方式呢你就拿不到它的网页内容了，那么很明显，manus也不是这种方式，因为他有向下滚动的这个操作。所以它用的其实是第二种方式，就是通过类似于这个 selenium （web driver）这个模拟浏览器内容的这种工具，他在内部构建了一个浏览器内核，在内核里面渲染出来网页，然后你就可以通过调用它的这个api 来操作这个网页的dom，类似于这种方式来抓取网页的内容。

接下来manus把提取到的网页信息，都输入到了一个文件里面，这也是一种文件的api操作。这个所有的agent都能做。

关键点来了，manus要结合用户的收入，考虑用户的它实际的购房负担，去筛选一些房源，它需要算，用户的收入能买多少平米的房子呢？

manus采用的方式是，首先调用搜索引擎，搜出来一个网页，进入到这个网页，向下滚动，滚动到这样的一个页面。

然后在这个网页上输入了一个金额，他在和这个网页交互！！！这个网站可以根据用户的收入来算，他用户能承担的这个购房的负担金额是多少钱。

它输入了这个金额之后呢，这个网站就会自动的帮他算出来你实际上能承担的购房金额是多少钱。金额在这里就输出出来了。

这个网页就是能够算出来你具体实际上能承担的金额是多少钱？

然后manux就把这个信息给提取出来了，输出到文件里面去啦，这是此前所有的模型都不具备的能力。

就是和任意的一个网页进行交互，并且还能获取出来信息。

这里面有两种可能，第一种就是这个网页是被特殊设计过的，是被针对性设计过的一个网页，预先我已经设计好，这个网页可以做哪些操作，然后manus就像调用api一样，去调用操作这个网页和网页交互。

第二种可能就是manus拥有了一种通用的和任意网页的理解能力，交互能力，这就太厉害了，而且我认为这是极有可能的。

然后接下来又来了，又是向下滚动，然后点击元素。

它理解了这个网页里面的内容，它知道怎么去跟这个网站进行交互，然后怎么样才能提取出来内容。

接下来的很多操作都是类似的，最后将所有提取到的内容都输出到这个最终的一个文件里面去。

就是它提取到了内容，表格也能提取出来，然后最后做一个总结的报告。

然后这个报告也能输出到文件里面去。交付给用户，做一个最终的产品。

最关键的还是和网页交互的能力吗，如果只是针对有数的几个网站进行交互，那就很没意思。但是他这个更像是和任意的一个网站进行一个交互。要知道任何的一个网站它的交互方式都是不一样的，操作是不一样的，比如这里从那个框输入，这里要不要点按钮拿到这个结果，这些每个网站都是不一样的。

我们人打开了这个网站，我们有经验，我们有学习能力，根据它界面的布局，我们能够迅速适应，最后才知道，我们是从这里输入，从这里读取到金额就好了。但是ai不知道，如果ai能和任意的网页进行交互，如果manus真的是自己做到了这一点，那这就是他的一个硬核创新。他的模型具备了和任意网页的交互能力和理解能力。

在他的介绍视频里呢，也提到了用到了多种模型进行了后续训练，那其中有一个这样和网页进行交互能力的模型也是合理的。只不过这样的模型能力绝对是稀缺的，这样的训练集呢，目前市面上也是没有的，需要大量的dom喂给大模型，再给他一个任务，还得有一个操作结果的 ground truth 才能训练处这样的一个模型。

那最后我们聊下为什么agi没有来，首先验证码的问题没办法解决，这是生态问题，而且部分网站需要用户登录注册后才能使用。所以agent访问网络的畅通能力远不及人类。

在一个人类使用搜索引擎的经验很难量化，大家在网络上搜一个东西，一片列表展示出来，哪一个流氓网站，哪一个是正常的。以上就是agent获取信息的能力其实很有限。

再说一下对我们普通人的影响：

其实就是没啥影响，刚才说了他的网络访问能力不如人力，那么就需要靠长时间的后台运行来保证效果，那就必然要消耗大量的token去承担高昂的费用，花十几块钱，让agent做一个不太靠谱的旅游攻略，没人会为这个去买单的。

至于炒作嘛，跑上十几次或者几十次，找到一个最好的效果放在网上作展示，就仁者见仁智者见智了