文章目录
1、简介
https://pandas-ai.com/
https://github.com/Sinaptik-AI/pandas-ai
PandasAI 是一个 Python 库,可以轻松地用自然语言向数据提问。它可以帮助您使用生成式 AI 探索、清理和分析数据。
PandasAI与您的数据库(SQL、CSV、pandas、polars、mongodb、noSQL 等)聊天。PandasAI 使用 LLM(GPT 3.5 / 4、Anthropic、VertexAI)和 RAG 进行数据分析对话。
PandasAI 是一个 Python 库,可以轻松地用自然语言对数据(CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等)提出问题。xIt 可帮助您使用生成式 AI 探索、清理和分析数据。
除了查询之外,PandasAI 还提供通过图形可视化数据、通过处理缺失值来清理数据集以及通过特征生成提高数据质量的功能,使其成为数据科学家和分析师的综合工具。
PandasAI 使用生成式 AI 模型来理解和解释自然语言查询,并将其转换为 python 代码和 SQL 查询。然后,它使用代码与数据交互并将结果返回给用户。
- PandasAI 的特点
- 自然语言查询:使用自然语言向数据提问。
- 数据可视化:生成图形和图表以可视化数据。
- 数据清理:通过处理缺失值来清理数据集。
- 特征生成:通过特征生成提高数据质量。
- 数据连接器:连接到各种数据源,如 CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等。
2、安装
2.1 Python
https://www.python.org/downloads/windows/
首先尝试安装Python3.12
2.2 PandasAI
使用如下命令安装:
pip install pandasai
安装刚开始还比较顺利。
结果后面如上报错,需要VC++编译器,于是安装VS2019如下:
vs2019社区版下载地址:
https://learn.microsoft.com/zh-cn/visualstudio/releases/2019/release-notes
vs2019专业版下载地址:
https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/
安装完vs2019之后,再安装PandasAI 仍然报错。
于是卸载Python3.12,安装Python3.11试试。
安装完Python3.11之后。
再安装PandasAI 如下:
正在安装中,
提示安装安装成功。
运行测试脚本后,提示还需要pyyaml库。
这里再安装一下pyyaml库。
pip install pyyaml
3、部署
PandasAI 可以通过多种方式进行部署。
-
您可以在 Jupyter 笔记本或streamlit 应用中轻松使用它,也可以将其部署为 REST API,例如使用 FastAPI 或 Flask。
-
托管 PandasAI Cloud 或自托管企业产品,见网站https://pandas-ai.com/。
4、功能
4.1 大型语言模型 (LLM)
https://docs.pandas-ai.com/en/latest/LLMs/llms/
PandasAI 支持多种大型语言模型 (LLM)。LLM 用于从自然语言查询生成代码。然后执行生成的代码以生成结果。
您可以通过实例化一个 LLM 并将其传递给 or 构造函数来选择一个 LLM,也可以在文件中指定一个 LLM。SmartDataFrame / SmartDatalake / pandasai.json
4.1.1 BambooLLM
BambooLLM 是由 PandasAI 开发的最先进的语言模型,考虑了数据分析。
- 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import BambooLLM
llm = BambooLLM(api_key="my-bamboo-api-key")
df = SmartDataframe("data.csv", config={
"llm": llm})
response = df.chat("Calculate the sum of the gdp of north american countries")
print(response)