让浏览器AI起来:基于大模型Agent的浏览器自动化工具

最近有个非常火的项目,利用大模型Agent驱动浏览器完成各种操作,如网页搜索、爬虫分析、机票酒店预定、股票监控等,号称全面替代所有在浏览器上的操作,试用方式还是比较简单的,以下将进行简单介绍。

快速开始

通过pip安装:

pip install browser-use

安装web自动化框架:

playwright install

Playwright微软开源的一个浏览器自动化框架,主要用于浏览器自动化执行web测试,提供强大的 API 集,适用于所有现代浏览器。

设置好大模型API KEY,填入.env文件:

OPENAI_API_KEY=

创建智能体,指定命令:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()

async def main():
    agent = Agent(
        task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

模型支持

API

所有适配LangChain chat接口并且支持工具调用的模型理论上都支持,但小模型在解析过程中错误率不可忽视。GPT-4o和DeepSeek-V3这类模型比较合适,推荐DeepSeek-V3,价格更加便宜。

from langchain_openai import ChatOpenAI
from browser_use import Agent
from pydantic import SecretStr

# Initialize the model
llm=ChatOpenAI(base_url='https://api.deepseek.com/v1', model='deepseek-chat', api_key=SecretStr(api_key))

# Create agent with the model
agent = Agent(
    task="Your task here",
    llm=llm,
    use_vision=False
)

本地模型

本地大模型可以使用Ollama,需要从Ollama官网选择支持工具调用的大模型。
在这里插入图片描述

调用方式同样非常简单,使用langchain_ollama加载模型即可:

from langchain_ollama import ChatOllama
from browser_use import Agent
from pydantic import SecretStr


# Initialize the model
llm=ChatOllama(model="qwen2.5", num_ctx=32000)

# Create agent with the model
agent = Agent(
    task
### 如何部署 Browser Use 相关的应用或服务 为了成功部署 Browser Use 应用,需遵循一系列配置步骤来确保环境准备就绪并能稳定运行该应用程序。 #### 准备工作 确保本地计算机已安装 Node.js 和 npm (Node Package Manager),因为 Browser Use 构建于 JavaScript 生态系统之上,并依赖这些工具来进行包管理和构建过程[^2]。 #### 获取源码 从官方仓库克隆 Browser Use 项目到本地机器。这通常通过 Git 完成: ```bash git clone https://github.com/path-to-browser-use-repo.git cd path-to-browser-use-repo ``` #### 安装依赖项 进入项目的根目录后,执行命令以下载所需的库文件和其他资源: ```bash npm install ``` #### 配置环境变量 依据具体需求设置必要的环境参数。某些情况下可能涉及 API 密钥或其他敏感信息,应妥善保管并通过 `.env` 文件或者其他安全的方式提供给程序使用。 #### 启动应用 一旦所有准备工作都已完成,则可以尝试启动 Browser Use 应用了。对于大多数基于 Node.js 的 Web 应用来说,可以通过如下方式开启服务器实例: ```bash node app.js 或者 npx nodemon 如果有nodemon的话 ``` 如果希望利用更强大的功能集,如多标签页管理、视觉识别以及内容提取等特性,还需要额外引入相应的模块和服务支持。 #### 使用 Browser Sync 实现实时预览 为了让开发者能够更加高效地调试前端页面,在开发阶段推荐启用 Browser Sync 来实现自动刷新机制。按照以下指令操作即可轻松集成这一实用插件: ```bash browser-sync start --proxy "http://localhost:8080/showcase" --files "src/main/webapp/**/*" ``` 这条命令会监听 `src/main/webapp/` 下的所有变动,并将请求转发至指定地址上的 Jetty 服务器,从而达到同步更新的效果[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值