Pandas教程：详解如何使用Pandas操作数据库

旦莫

于 2024-07-28 13:55:50 发布

阅读量504

点赞数 14

分类专栏： # Python Pandas 文章标签： pandas 数据库 python 开发语言数据分析

本文链接：https://blog.csdn.net/weixin_40025666/article/details/140749814

版权

Python Pandas 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在数据分析的工作流程中，数据的获取、处理和存储是至关重要的。Python 的 Pandas 库提供了强大的数据处理能力，而数据库（如 MySQL、PostgreSQL 等）则是高效存储和管理数据的工具。本文将详细介绍如何使用 Pandas 操作数据库，包括数据库读取数据、写入数据、更新和删除数据、实际案例和注意事项。

1. 环境准备

在开始之前，请确保安装了以下必要的 Python 库。可以使用以下命令进行安装：

pip install pandas sqlalchemy pymysql

Pandas：用于数据处理。
SQLAlchemy：提供数据库连接和操作的 ORM（对象关系映射）功能。
PyMySQL：用于 MySQL 数据库的连接（如果使用的是 MySQL）。

2. 建立与数据库的连接

使用 Pandas 操作数据库的第一步是建立连接。以下是连接数据库的基本步骤：

import pandas as pd
from sqlalchemy import create_engine

# 数据库连接配置
username = 'your_username'  # 替换为你的数据库用户名
password = 'your_password'  # 替换为你的数据库密码
host = 'localhost'          # 数据库地址
database = 'your_database_name'  # 数据库名称

# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')

连接参数详解：

username: 数据库的用户名。
password: 数据库的密码。
host: 数据库的主机地址（通常是 localhost 或者服务器的 IP 地址）。
database: 要连接的数据库名称。

3. 从数据库读取数据

通过 Pandas，您可以使用 pd.read_sql() 方法执行 SQL 查询并将结果读入 DataFrame。

# 从数据库读取数据
query = "SELECT * FROM your_table_name"  # 替换为你的查询
df = pd.read_sql(query, engine)

# 显示前几行数据
print(df.head())

使用参数化查询

为了避免 SQL 注入攻击，可以使用参数化查询：

query = "SELECT * FROM your_table_name WHERE column_name = %s"
params = ('value',)
df = pd.read_sql(query, engine, params=params)

4. 将数据写入数据库

在数据处理完成后，您可以将 DataFrame 中的数据写入数据库的表中。

# 将 DataFrame 写入数据库
df.to_sql('your_table_name', engine, if_exists='replace', index=False)

`if_exists` 参数详解：

'fail': 如果表存在，则不执行任何操作（默认值）。
'replace': 如果表存在，则删除表并重新创建。
'append': 如果表存在，则将数据附加到现有表中。

5. 更新和删除数据

在一些情况下，您可能需要更新或删除数据库中的数据。您可以使用 execute() 方法直接执行 SQL 语句。

更新数据

# 更新数据
with engine.connect() as connection:
    update_query = """
    UPDATE your_table_name
    SET column_name = new_value
    WHERE condition;
    """
    connection.execute(update_query)

删除数据

# 删除数据
with engine.connect() as connection:
    delete_query = """
    DELETE FROM your_table_name
    WHERE condition;
    """
    connection.execute(delete_query)

6. 实战案例

假设我们要管理一个学生信息的数据库。我们将执行以下操作：

6.1 创建数据库和表

首先，确保你的 MySQL 数据库中有一个学生表。可以使用以下 SQL 语句创建表：

CREATE TABLE students (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(100),
    age INT,
    score FLOAT
);

6.2 插入示例数据

# 插入示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 22, 21],
    'score': [85.5, 90.0, 78.0]
}
df_students = pd.DataFrame(data)

# 将数据写入数据库
df_students.to_sql('students', engine, if_exists='append', index=False)

6.3 更新学生信息

# 更新学生 Charlie 的分数
with engine.connect() as connection:
    update_query = """
    UPDATE students
    SET score = 80.0
    WHERE name = 'Charlie';
    """
    connection.execute(update_query)

6.4 删除学生记录

# 删除年龄大于 21 的学生
with engine.connect() as connection:
    delete_query = """
    DELETE FROM students
    WHERE age > 21;
    """
    connection.execute(delete_query)

6.5 从数据库读取数据并进行分析

# 从数据库读取数据
query = "SELECT * FROM students"
df_students = pd.read_sql(query, engine)

# 数据分析：计算平均分
average_score = df_students['score'].mean()
print(f"平均分：{average_score}")

7. 注意事项与常见问题

7.1 数据库连接失败

1. 检查数据库服务状态

确保数据库服务正在运行。有时数据库可能未启动。您可以使用以下命令检查 MySQL 服务状态（以 MySQL 为例）：

# 对于系统d
sudo systemctl status mysql

# 对于旧版的系统
service mysql status

2. 验证连接参数

确保连接时使用的参数正确，包括：

用户名: 确保提供的数据库用户名是有效的。
密码: 确保密码正确，注意密码中的特殊符号可能需要转义。
主机: 如果数据库在远程服务器上，请确保提供正确的 IP 地址或主机名。对于本地数据库，通常是 localhost 或 127.0.0.1。
数据库名称: 确保目标数据库已经存在，且名称拼写正确。

3. 检查网络连接

如果您连接的是远程数据库，确保网络连接正常。可以通过 ping 命令检查与数据库服务器的连接：

ping your_database_host

4. 数据库权限问题

确保您使用的数据库用户具有连接到数据库的权限。可以通过登录到数据库（使用其他工具，如 MySQL Workbench 或命令行工具）并执行以下 SQL 查询来检查权限：

SHOW GRANTS FOR 'your_username'@'localhost';

5. 查看错误信息

在连接失败时，Python 通常会返回一个错误信息。仔细查看错误信息，可能会提供有关问题的线索。可以使用 try-except 语句捕获错误并打印详细信息：

try:
    engine = create_engine('mysql+pymysql://username:password@host/database')
    connection = engine.connect()
except Exception as e:
    print(f"连接失败: {e}")

6. 连接参数调试

有时，添加一些连接参数可能会有所帮助。例如，charset=utf8 可以避免字符编码的问题：

engine = create_engine('mysql+pymysql://username:password@host/database?charset=utf8')

7.2 数据库表不存在

如果在尝试写入数据时遇到 Table doesn't exist 的错误，确保目标表已经存在。可以使用 if_exists='replace' 创建新表。

7.3 数据类型兼容性

在将 DataFrame 写入数据库时，确保数据类型与数据库表中的数据类型兼容。例如，如果数据库列期望整数类型，但 DataFrame 中的数据为浮点数类型，可能会导致错误。

7.4 大数据量写入

对于大量数据的写入，可以使用 chunksize 参数分批写入，以避免因内存不足而导致的错误：

df.to_sql('your_table_name', engine, if_exists='append', index=False, chunksize=1000)

7.5 SQL 注入问题

在构建 SQL 查询时，避免直接拼接字符串，使用参数化查询可以有效防止 SQL 注入攻击。

旦莫

关注

14
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas教程：详解如何使用Pandas操作数据库

在数据分析的工作流程中，数据的获取、处理和存储是至关重要的。Python 的 Pandas 库提供了强大的数据处理能力，而数据库（如 MySQL、PostgreSQL 等）则是高效存储和管理数据的工具。本文将详细介绍如何使用 Pandas 操作数据库，包括数据库读取数据、写入数据、更新和删除数据、实际案例和注意事项。
复制链接

扫一扫