Manus到底是什么?

  • 👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,入职小红书广告投放开发,很高兴认识大家
  • 🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博主哦
  • 🍂博主正在努力完成2025计划中:逆水行舟,不进则退
  • 📝联系方式:nhs19990716,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬👀

本文共分为三部分,第一部分简单记录了openManus的启动步骤,方便大家在自己电脑上部署自己的opnemanus;第二部分是结合 通义千问(免费)来使用openMenus的步骤;第三部分是全面透彻的分析Manus到底是什么?

openManus

1、windows 搜索 Anaconda Prompt

2、conda create -n open_manus python=3.12

3、conda activate open_manus

4、安装git 的环境变量

5、git clone https://gitee.com/devine/OpenManus.git

6、cd OpenManus

7、pip install -r requirements.txt

8、配置 cp config/config.example.toml config/config.toml

[llm]
model = "qwen-plus"
base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
api_key = "sk-b30ab04bc32142cdad67b53f92d15b8e"
max_tokens = 4096
temperature = 0.3

# Optional configuration for specific LLM models
[llm.vision]
model = "qwen-v1-plus"
base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
api_key = "sk-b30ab04bc32142cdad67b53f92d15b8e"

9、python main.py (启动)

OpenManus对接通义千问本地安装与使用感受

生成初版的答案:

Manus最全硬核分析

2025.3.8 manus爆火出圈了之后呢,现在又在快速降温啦,推特的官方账号也被封了,很多人开始说他在炒作了

那么manus到底是不是在炒作,他有没有硬核的创新或者突破呢?agi的时刻真的来了吗?对于普通人到底有什么影响?

在此之前先快问快答下大家的问题:

1、manus是炒作吗?不是

2、manus有硬核突破吗?有

3、agi的时刻来了吗?没有

现在内测账号炒了到5w一个,其实大家完全没有必要买,即使有了也没办法用,因为你没时间等他跑完,因为非常慢,还要调整提示词。可能拿到账号最好的处理方式就是卖掉。

其实官网提供的这些案例就已经很有代表性了,以他纽约买房的这个例子来详细说明一下,打开后,就是一个任务回放,左侧呢使整个的思维过程,右侧是显示的执行窗口

输入一个任务的综述,他要在纽约买一个房子,然后希望有一个比较低的犯罪率,他有一个孩子在上初中,有一个孩子在上幼儿园,他需要考虑到孩子的教育问题,然后他和他爱人的这个收入是多少钱,请你综合考虑上面的因素,帮我找一个合适的房子,做一个列表。

然后我们可以看到manus就开始执行啦


首先manus对整个任务做了一个回顾,接下来开始检索了一下他的知识库,然后就开始执行了一条这样的命令,这个命令就是创建一个todo的文件。这就是一个小的创新点,就是它在整个任务开始执行之前,它会做一个todo list,把所有的任务都输出到这个文件里面,那创建文件的方式呢,就是命令行的方式。那这个就是agent的第一个功能,就是操作文件系统。

那像这种功能呢其实并不是它的创新,很多的agent都能做到。但是创建todo list 是他的一个小的创新点。创建完成之后,他把他要做的每一项都输出到这个文件里面,回头在执行的时候,会在每一项前面打个钩。


接下来它调用搜索引擎搜索了一个关键词:最安全在纽约,低犯罪率。搜出来一大堆结果。

agent调用搜索引擎,这也不是一个新鲜的事情,很多的agent都能做到,调用搜索引擎,本质上也是一个api的调用。我们会把这个搜索引擎封装成一个工具类,一起喂给大模型,大模型可以根据搜索引擎返回的结果,作进一步的选择或者处理。

在这里它选择了其中的一个连接去提取这个 浏览这个网页。

继续调用搜索引擎,然后重复上面的操作。

接下来到了第一个局限性

这里卡主了,需要输入验证码,也就是说,它其实并没有办法去解决 这种验证码的问题。你看manus下面马上输出了一段话,就是它被验证码卡住了,询问用户想怎么办?比如说它并没有办法完全自动的在后台去执行,它中途还是需要用户去介入的。

刚才为什么说agi没有来,manus改变不了世界,就是因为验证码阻止了它,现在的互联网呢,对机器人并不友好,很多网站都会带着验证码,这个解决不了。

然后用户说跳过这一项。

然后manux继续搜索 浏览网页。

然后这里触发了动作叫做 向下滚动。提取网页信息

提取网页信息的方式有很多种,最简单的方式,就是像网页发一种http的请求,request get请求,然后拿到的respones就是网页的信息,但是很多情况下,这种方式是用不了的,因为很多网页会用加密的方式,它的整个网页的这个html的内容呢,并不是直接明文返回给你的,而是通过加密方式返回的,或者通过js执行的方式来渲染的。这种方式呢 你就拿不到它的网页内容了,那么很明显,manus也不是这种方式,因为他有向下滚动的这个操作。所以它用的其实是第二种方式,就是通过类似于 这个 selenium (web driver)这个模拟浏览器内容的这种工具,他在内部构建了一个浏览器内核,在内核里面渲染出来网页,然后你就可以通过调用它的这个api 来操作这个网页的dom,类似于这种方式来抓取网页的内容。

接下来manus把提取到的网页信息,都输入到了一个文件里面,这也是一种文件的api操作。这个所有的agent都能做。

关键点来了,manus要结合用户的收入,考虑用户的它实际的购房负担,去筛选一些房源,它需要算,用户的收入能买多少平米的房子呢?

manus采用的方式是,首先调用搜索引擎,搜出来一个网页,进入到这个网页,向下滚动,滚动到这样的一个页面。

然后在这个网页上输入了一个金额,他在和这个网页交互!!!这个网站可以根据用户的收入来算,他用户能承担的这个购房的负担金额是多少钱。

它输入了这个金额之后呢,这个网站就会自动的帮他算出来 你实际上能承担的购房金额是多少钱。金额在这里就输出出来了。

这个网页就是能够算出来你具体实际上能承担的金额是多少钱?


然后manux就把这个信息给提取出来了,输出到文件里面去啦,这是此前所有的模型都不具备的能力。

就是和 任意的一个网页进行交互,并且还能获取出来信息。

这里面有两种可能,第一种就是这个网页是被特殊设计过的,是被针对性设计过的一个网页,预先我已经设计好,这个网页可以做哪些操作,然后manus就像调用api一样,去调用操作这个网页 和 网页交互。

第二种可能就是manus拥有了一种通用的 和任意网页的理解能力,交互能力,这就太厉害了,而且我认为这是极有可能的。

然后接下来又来了,又是向下滚动,然后点击元素。


它理解了这个网页里面的内容,它知道怎么 去跟这个网站进行交互,然后怎么样才能提取出来内容。

接下来的很多操作都是类似的,最后将所有提取到的内容都输出到这个最终的一个文件里面去。

就是它提取到了内容,表格也能提取出来,然后最后做一个总结的报告。

然后这个报告也能输出到文件里面去。交付给用户,做一个最终的产品。

最关键的还是和网页交互的能力吗,如果只是针对有数的几个网站进行交互,那就很没意思。但是他这个更像是和任意的一个网站进行一个交互。要知道任何的一个网站它的交互方式都是不一样的,操作是不一样的,比如这里从那个框输入,这里要不要点按钮拿到这个结果,这些每个网站都是不一样的。

我们人打开了这个网站,我们有经验,我们有学习能力,根据它界面的布局,我们能够迅速适应,最后才知道,我们是从这里输入,从这里读取到金额就好了。但是ai不知道,如果ai能和任意的网页进行交互,如果manus真的是自己做到了这一点,那这就是他的一个硬核创新。他的模型具备了和任意网页的交互能力 和 理解能力。

在他的介绍视频里呢,也提到了用到了多种模型进行了后续训练,那其中有一个这样和网页进行交互能力的模型 也是合理的。只不过这样的模型能力绝对是稀缺的,这样的训练集呢,目前市面上也是没有的,需要大量的dom喂给大模型,再给他一个任务,还得有一个操作结果的 ground truth 才能训练处这样的一个模型。

那最后我们聊下为什么agi没有来,首先验证码的问题没办法解决,这是生态问题,而且部分网站需要用户登录注册后才能使用。所以agent访问网络的畅通能力远不及人类。

在一个人类使用搜索引擎的经验很难量化,大家在网络上搜一个东西,一片列表展示出来,哪一个流氓网站,哪一个是正常的。以上就是agent获取信息的能力其实很有限。

再说一下对我们普通人的影响:

其实就是没啥影响,刚才说了他的网络访问能力不如人力,那么就需要靠长时间的后台运行来保证效果,那就必然要消耗大量的token去承担高昂的费用,花十几块钱,让agent做一个不太靠谱的旅游攻略,没人会为这个去买单的。

至于炒作嘛,跑上十几次或者几十次,找到一个最好的效果放在网上作展示,就仁者见仁智者见智了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱吃芝士的土豆倪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值