浏览器自动化与AI Agent结合项目browser-use初探

browser-use介绍

browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。

GitHub地址:https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars,2.7kforks,看得出来是一个比较热门的项目。我在上手体验了之后,发现确实是一个很有趣的项目,因此推荐给大家。

实践

上手也非常简单,创建一个python虚拟环境,pip install browser-use,再playwright install即可。

现在需要进行LLM的配置,官方推荐使用gpt-4o,但是为了降低成本,方便让看了教程感兴趣的人能够方便上手,这里我使用的是硅基流动提供的模型。目前硅基流动注册送14元不过期额度,够用一段时间的了,邀请链接:https://cloud.siliconflow.cn/i/Ia3zOSCU。如果你的额度不够了,但是也想体验一下,可以私聊我,我可以提供一个api key暂时供你快速上手体验,额度用差不多了,我就停止了。

创建一个.env文件,这样写:

Silicon_Cloud_API_KEY=xxx
Base_URL=https://api.siliconflow.cn
Model=Qwen/Qwen2.5-72B-Instruct

创建一个test脚本,这样写:

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取https://github.com/OpenInterpreter/open-interpreter仓库的前五个问题",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

查看效果:

image-20250212085716642

image-20250212085758634

image-20250212085834372

还生成了一个agent_history.gif可以查看流程:

将结果与实际对比:

image-20250212090403603

可以发现browser-use非常准确的获取了。

再使用一个更普遍的例子,就是获取当前微博前十的热搜。

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取当前微博前十的热搜",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

image-20250212090822384

image-20250212090907000

最后

以上就是使用硅基流动中的Qwen/Qwen2.5-72B-Instruct快速体验browser-use的效果。初步体验感觉是一个很有潜力的项目,将AI Agent与浏览器自动化结合确实可以做很多事情。

原创作者: mingupupu 转载于: https://www.cnblogs.com/mingupupu/p/18710934
### 浏览器的基础结构 浏览器大致可以分为三个主要部分: - **标签页信息显示及管理**:这部分允许用户查看当前打开的多个网页,并通过点击相应的标签来切换不同的页面。每个标签通常会有一个关闭按钮,方便用户快速移除不再需要的页面[^2]。 - **地址栏及浏览器设置**:位于顶部中央的位置,主要用于输入网址以访问特定网站。此外,在这个区域还可以找到各种配置选项,使用户能够调整浏览器的行为和外观,比如启用或禁用插件、更改默认搜索引擎等。 - **浏览器的浏览部分**:这是屏幕的主要区域,用来呈现所请求网页的内容。当加载完成之后,所有的文字、图片和其他多媒体元素都会在此处展现给用户。 ### 使用浏览器进行网络操作 为了更好地利用浏览器的功能,以下是几个实用技巧: #### 输入URL并导航至目标站点 在地址栏中键入想要访问的网站链接后按回车键即可跳转到该位置。现代浏览器还支持自动补全功能,可以根据历史记录预测可能的目的地,从而加快查找速度。 #### 利用书签保存常用网站 对于经常访问的一些资源,可以把它们加入收藏夹以便日后轻松获取。大多数情况下只需右击页面中的某个地方选择“添加到书签”,或者拖拽星形图标到桌面/工具栏上来创建快捷方式。 #### 查看源码开发者模式 有时开发人员希望检查HTML/CSS/JavaScript代码片段;此时可以通过菜单里的“查看页面源代码”命令实现目的。更进一步地说,按下F12键可开启调试界面——它提供了丰富的诊断工具集用于分析性能瓶颈以及修复潜在错误。 ```html <!-- 这是一个简单的 HTML 示例 --> <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> </head> <body> </body> </html> ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值