当pandas撞上了sql,于是一个强大的pandasql库产生了!

1. 演示数据

本文的所有演示数据,均是基于下方的四张表。下面这四张表大家应该不陌生,这就是网传50道经典MySQL面试题中使用到的几张原表。关于下方各表之间的关联关系,我就不给大家说明了,仔细观察字段名,应该就可以发现。
在这里插入图片描述

2. pandasql的使用

1)简介

pandas中的DataFrame是一个二维表格,数据库中的表也是一个二维表格,因此在pandas中使用sql语句就显得水到渠成,pandasql使用SQLite作为其操作数据库,同时Python自带SQLite模块,不需要安装,便可直接使用。

这里有一点需要注意的是:使用pandasql读取DataFrame中日期格式的列,默认会读取年月日、时分秒,因此我们要学会使用sqlite中的日期处理函数,方便我们转换日期格式,下方提供sqlite中常用函数大全,希望对你有帮助。

sqlite函数大全http://suo.im/5DWraE

导入相关库:

import pandas as pd
from pandasql import sqldf
2)声明全局变量的2种方式
  • ① 在使用之前,声明该全局变量;
  • ② 一次性声明好全局变量;
① 在使用之前,声明该全局变量
df1 = pd.read_excel("student.xlsx")
df2 = pd.read_excel("sc.xlsx")
df3 = pd.read_excel("course.xlsx")
df4 = pd.read_excel("teacher.xlsx")


global df1
global df2
global df3
global df4
query1 = "select * from df1 limit 5"
query2 = "select * from df2 limit 5"
query3 = "select * from df3"
query4 = "select * from df4"

sqldf(query1)
sqldf(query2)
sqldf(query3)
sqldf(query4)

部分结果如下:
在这里插入图片描述

② 一次性声明好全局变量
df1 = pd.read_excel("student.xlsx")
df2 = pd.read_excel("sc.xlsx")
df3 = pd.read_excel("course.xlsx")
df4 = pd.read_excel("teacher.xlsx")

pysqldf = lambda q: sqldf(q, globals())

query1 = "select * from df1 limit 5"
query2 = "select * from df2 limit 5"
query3 = "select * from df3"
query4 = "select * from df4"

sqldf(query1)
sqldf(query2)
sqldf(query3)
sqldf(query4)

部分结果如下:
在这里插入图片描述

3)写几个简单的SQL语句
① 查看sqlite的版本
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """
    select sqlite_version(*)
"""
pysqldf(query1)

结果如下:
在这里插入图片描述

② where筛选
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """
    select * 
    from student 
    where strftime('%Y-%m-%d',sage) = '1990-01-01'
"""
pysqldf(query1)

结果如下:
在这里插入图片描述

③ 多表连接
student = pd.read_excel("student.xlsx")
sc = pd.read_excel("sc.xlsx")


pysqldf = lambda q: sqldf(q, globals())
query2 = """
    select *
    from student s
    join sc on s.sid = sc.sid
"""
pysqldf(query2)

部分结果如下:
在这里插入图片描述

④ 分组聚合
student = pd.read_excel("student.xlsx")
sc = pd.read_excel("sc.xlsx")


pysqldf = lambda q: sqldf(q, globals())
query2 = """
    select s.sname as 姓名,sum(sc.score) as 总分
    from student s
    join sc on s.sid = sc.sid
    group by s.sname
"""
pysqldf(query2)

结果如下:
在这里插入图片描述

⑤ union查询
student = pd.read_excel("student.xlsx")
pysqldf = lambda q: sqldf(q, globals())
query1 = """
    select * 
    from student 
    where strftime('%Y-%m',sage) = '1990-01'
    union
    select * 
    from student 
    where strftime('%Y-%m',sage) = '1990-12'
"""
pysqldf(query1)

结果如下:
在这里插入图片描述

### 回答1: 读取CSV文件的函数,函数名为read_csv_file,参数为文件路径,并将读取的数据返回。以下是示例代码: ```python import pandas as pd def read_csv_file(file_path): # 读取CSV文件 data = pd.read_csv(file_path) # 返回读取的数据 return data ``` 调用该函数时,只需要传入CSV文件的路径即可: ```python data = read_csv_file('example.csv') ``` 其中,example.csv 为需要读取的CSV文件的路径。该函数将返回读取的数据,可用于后续操作。 ### 回答2: Pandas一个强大Python,用于数据分析和处理。相比于传统的数据处理工具,使用Pandas可以更加高效地处理和分析大规模的数据集。 在使用Pandas进行数据处理时,首先需要导入Pandas,并读取数据文件。可以使用`pd.read_csv()`函数读取CSV格式的数据文件,也可以使用其他函数读取不同格式的数据文件。一旦数据被读取,可以使用Pandas提供的各种函数和方法对数据进行处理和分析。 Pandas提供了丰富的数据操作和处理功能。可以使用`dataframe.head()`方法查看数据的前几行,`dataframe.info()`方法查看数据的基本信息,`dataframe.describe()`方法输出数据的描述性统计信息等。此外,还可以使用`dataframe.shape`属性获取数据的维度,`dataframe.columns`属性获取数据的列名等。 在数据处理过程中,常常需要选取特定的数据子集。可以使用`dataframe[column_name]`或者`dataframe.loc[selection_criteria, column_name]`方法选取特定列的数据,使用`dataframe.loc[selection_criteria]`方法选取特定行的数据,并且可以使用不同的条件对数据进行过滤。 Pandas还提供了各种函数和方法进行数据清洗和转换操作。可以使用`dataframe.drop()`方法删除行或列,使用`dataframe.fillna()`方法填充缺失值,使用`dataframe.apply()`方法将自定义函数应用于数据等。 此外,Pandas还可以进行数据的排序、分组、连接等操作,可以使用Pandas提供的可视化函数绘制图表,还可以将处理后的数据保存到文件中。 总之,Pandas是数据分析和处理中的重要工具,提供了丰富强大的功能,能够帮助我们更加高效地进行数据处理和分析。无论是对小规模数据还是对大规模数据,Pandas都能够提供高效的解决方案。 ### 回答3: Pandas一个基于Python的数据分析工具,它提供了丰富的数据结构和数据处理功能。使用Pandas可以更加高效地处理和分析数据。 首先,我们需要使用Pandas导入数据。通过pandas的read_csv()函数,我们可以轻松地从CSV文件中读取数据,并将其存储在DataFrame中。DataFrame是Pandas的核心数据结构,类似于一张二维表格,它可以对数据进行统一管理。 然后,我们可以使用Pandas提供的方法对数据进行处理和分析。例如,我们可以使用DataFrame的head()函数查看数据的前几行,使用tail()函数查看数据的后几行。我们还可以使用describe()函数获取数据的描述性统计信息,如均值、标准差等。另外,Pandas还提供了多种选择、筛选、排序和分组数据的方法,让我们可以根据需要灵活地处理数据。 在数据处理和分析过程中,我们还可以将数据可视化以更好地呈现分析结果。Pandas可以与Matplotlib等可视化结合使用,通过调用plot()函数绘制折线图、柱状图、散点图等多种图表。这些图表可以帮助我们更好地理解数据,探索数据之间的关系和趋势。 总之,Pandas一个功能强大的数据分析工具,它提供了便捷的数据导入、处理和分析方法,使我们能够更加高效地处理和分析数据。无论是初学者还是专业数据分析师,都可以从Pandas中受益,并将其应用于实际的数据分析项目中。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析与统计学之美

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值