使用Pandas读取MySQL数据库数据

Z_Karry

已于 2024-06-18 19:25:46 修改

阅读量2.4k

点赞数 33

文章标签：数据库 pandas mysql python

于 2024-06-12 20:48:56 首次发布

本文链接：https://blog.csdn.net/Z_Karry/article/details/139635683

版权

前言

1.做什么

2. 安装必要的库

3. 连接到MySQL数据库

4. 使用Pandas读取数据库表

5. 使用SQL查询读取数据

6. 处理连接和查询错误

7. 总结

前言

认识pandas

Pandas是一个开源的Python库，提供了快速、灵活和富有表达力的数据结构，旨在使“关系型”或“标记型”数据的工作变得既简单又直观。Pandas这个名字源于“Panel Data”（面板数据）和“Python Data Analysis”（Python数据分析）的结合。

以下是Pandas的一些关键特点和功能：

一.数据结构

Series：
- 一维数组，能够保存任何数据类型（整数、字符串、浮点数、Python对象等）。
- 带有标签的数组，能够保存任何数据类型（整数、字符串、浮点数、Python对象等），可以保存每个元素的索引。
DataFrame：
- 二维的表格型数据结构，可以看作是一个Series对象的容器。
- 它有行和列的索引，类似于Excel表格或SQL表，或者是一个字典对象，其中包含了由有序列（可以是字符、数字等）组成的行和列。
Index：
- 不可变数组，用于保存数据轴上的标签。
- 它是Pandas数据结构（如Series和DataFrame）的核心组件，提供了轴标签、数据对齐和快速查找数据等功能。

二.数据操作

数据读取和写入：
- 支持多种文件格式，如CSV、Excel、SQL、JSON、HDF5等。
- 提供了一系列函数（如read_csv(), to_csv(), read_excel(), to_excel()等）来方便地读取和写入数据。
数据清洗：
- 处理缺失值（如删除、填充等）。
- 处理重复值。
- 数据类型转换。
- 字符串操作（如大小写转换、分割、替换等）。
数据选择：
- 使用标签或位置选择数据。
- 使用条件表达式（布尔索引）来选择数据。
数据转换：
- 排序和排名。
- 数据的重新索引和重塑。
- 数据的透视和透视表。
数据分组和聚合：
- 使用groupby()函数按照一个或多个键对数据进行分组。
- 对每个组执行聚合操作（如求和、平均值、计数等）。

三.时间序列分析

Pandas提供了丰富的功能来处理时间序列数据，包括：

日期范围的创建。
频率转换和重采样。
移动窗口函数（如滚动平均、滚动标准差等）。
日期偏移和日期运算。

统计功能

Pandas内置了许多统计函数和方法，如：

描述性统计（如均值、中位数、众数、标准差、方差等）。
相关性分析（如相关系数矩阵）。
协方差。
数据的分位数和百分位数。

四.数据可视化

虽然Pandas本身并不直接生成图表，但它与Matplotlib、Seaborn等可视化库紧密集成，可以方便地将数据可视化为图表。Pandas提供了plot()函数，该函数实际上是Matplotlib的封装，可以快速地创建各种类型的图表（如折线图、柱状图、散点图等）。

1.学习的内容

在数据分析中，经常需要从关系型数据库中读取数据。Pandas是一个强大的Python库，它提供了多种方法来读取和处理数据，包括从MySQL数据库中读取数据。本文将介绍如何使用Pandas和SQLAlchemy库来连接MySQL数据库并读取其中的数据。

2. 安装必要的库

首先，确保你已经安装了Pandas、SQLAlchemy和PyMySQL（或mysqlclient，作为MySQL的Python连接器）。若还没有安装，可以通过pip来安装：

pip install pandas sqlalchemy pymysql

3. 连接到MySQL数据库

在读取数据库数据前，需要先创建数据库连接。Python提供了SQLAlchemy 库的create_engine函数用于创建数据库连接，在create_engine函数中输入的是一个连接字符串。在使用Python的SQLAlchemy库时，MySQL和Oracle数据库连接字符串的格式如下：

数据库产品名+连接工具名：//用户名：密码@数据库 IP 地址：数据库端口号/数据库名称？charset=数据库数据编码格式

连接MySQL数据库之前，你需要知道数据库的主机名、端口、用户名、密码和数据库名。然后，你可以使用SQLAlchemy来创建一个数据库引擎。以下是一个示例代码，展示了如何连接到MySQL数据库：


from sqlalchemy import create_engine  
  
#使用mysql+pymysql://连接MySQL数据库  
engine = create_engine('mysql+pymysql://username:password@localhost:3306/dbname')

请确保将username、password、localhost、3306和dbname替换为你的MySQL数据库的实际值。

具体示例如下：

from sqlalchemy import create_engine  
  
#创建一个MySQL连接，用户名为root，密码为1234
#IP地址为127.0.0.1，数据库名称为testdb，编码格式为UTF-8
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/testdb？charset=utf8')
print(engine)

4. 使用Pandas读取数据库表

在数据库连接创建完成后，可通过read_sql_query , read_sql_table , read_sql函数读取数据库中的数据。

一旦你有了数据库引擎，就可以使用Pandas的read_sql_table()函数来读取数据库中的表了。以下是一个示例：

import pandas as pd  
  
# 使用Pandas读取数据库中的'my_table'表  
df = pd.read_sql_table('my_table', engine)  
  
# 显示数据框的前几行  
print(df.head())

注意：# read_sql_table()函数需要表名作为参数，并且它假设该表存在于默认的架构中。如果你的表在不同的架构中，你需要提供完整的表名（例如，'my_schema.my_table')。

具体示例如下：

#使用read_sql_table函数读取音乐行业收入信息表
musicdate = pd.read_sql_table('musicdate', con=engine)  
print('使用read_sql_table函数读取音乐行业收入信息表，表的长度：\n',len(musicdate))

5. 使用SQL查询读取数据

如果你想使用自定义的SQL查询来从数据库中读取数据，可以使用read_sql_query()函数。以下是一个示例：

# 编写一个SQL查询语句  
query = "SELECT * FROM my_table WHERE column_name = 'value'"  
  
# 使用Pandas的read_sql_query()函数执行查询并获取数据  
df = pd.read_sql_query(query, engine)  
  
# 显示数据框的前几行  
print(df.head())

在这个例子中，我们编写了一个简单的SELECT查询语句，并使用 read_sql_query()函数来执行它。这个函数接受SQL查询语句和数据库引擎作为参数，并返回一个包含查询结果的Pandas数据框。

6. 处理连接和查询错误

当与数据库交互时，可能会出现各种错误，如连接错误、查询错误等。

你应该始终确保你的代码能够处理这些错误。可以使用Python的异常处理机制来实现这一点。

注意事项：

内存管理：当从数据库中读取大量数据时，需要注意内存使用情况。如果一次性加载过多数据，可能会导致内存溢出。因此，在读取数据时，可以考虑使用分块读取（chunking）或限制返回的行数等方式来减少内存占用。
安全性：在执行SQL查询时，需要注意SQL注入的风险。应该避免在查询中使用不安全的输入，或者使用参数化查询等方式来防止SQL注入攻击。
连接管理：在数据读取和处理完成后，应该关闭与数据库的连接以释放资源。虽然Pandas和SQLAlchemy在处理完数据后通常会自动关闭连接，但在某些情况下可能需要手动关闭连接以确保资源的正确释放。
性能优化：对于大型数据库和复杂的查询，可能需要考虑性能优化的问题。这包括优化查询语句、使用索引、减少数据传输量等方式来提高数据读取的效率。

7. 总结

通过结合使用Pandas和SQLAlchemy，我们可以方便地从MySQL数据库中读取数据，并利用Pandas强大的数据处理和分析功能对数据进行深入的分析。这种方法不仅提高了数据处理的效率，还使得数据分析过程更加灵活和便捷。在实际应用中，我们应该注意内存管理、安全性、连接管理以及性能优化等方面的问题，以确保数据处理的顺利进行。