“真”pandas“假”sql

这篇博客利用了 pandas 对数据像 sql 一样去处理。

读取测试数据

import pandas as pd
import numpy as np

url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'

tips = pd.read_csv(url)  # 读取数据
tips.head()

测试数据的前5行如下:
image.png

SELECT(选择语句)

SQL语句:

SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;

Python语句:

tips[['total_bill', 'tip', 'smoker', 'time']].head(5)

image.png

UPDATE(更新语句)

SQL语句:

UPDATE tips SET tip = tip*2 WHERE tip < 2;


Python语句:

tips.loc[tips['tip'] < 2, 'tip'] *= 2

DELETE(删除语句)

SQL语句:

DELETE FROM tips WHERE tip > 9;

Python语句:

tips = tips.loc[tips['tip'] <= 9]

WHERE (条件)

SQL语句:

SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;

Python语句:

tips[tips['time'] == 'Dinner'].head(5)

image.png

AND&OR

SQL语句:

SELECT * FROM tips WHERE time = 'Dinner' AND tip >5.00;

Python语句:

# pandas中用“&”表示and;用“|”表示or
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]

image.png
SQL语句:

SELECT * FROM tips WHERE size >= 5 OR total_bill > 45;

Python语句:

# 选出size大于5或者total_bill大于45的
tips[(tips['size'] >=5 ) | (tips['total_bill'] > 45)]

image.png

GROUP BY (分组聚合)

在pandas中,使用类似命名的 groupby() 方法执行SQL的GROUP BY操作。 groupby() 通常是指我们要将数据集拆分为组,应用一些函数(通常是聚合),然后将组合在一起的过程。
常见的SQL操作将在整个数据集中获取每个组中的记录计数。 例如,一个查询让我们得到性别剩余的提示数:

SQL语句:

SELECT sex, count(*) FROM tips GROUP BY sex;
/*
Female     87
Male      157
*/

Python语句:

# sql中的ocunt和pandas的count不一样,这里是size()达到我们的目的
tips.groupby('sex').size()

image.png
Python语句:

tips.groupby('sex').count()

image.png


Python语句:

# 对单独一列进行count
tips.groupby('sex')['total_bill'].count()

image.png


SQL语句:

SELECT day, AVG(tip), COUNT(*) FROM tips GROUP BY day;
/*
Fri   2.734737   19
Sat   2.993103   87
Sun   3.255132   76
Thur  2.771452   62
*/

也可以同时应用多种功能。 例如,假设我们希望看到技巧数量在星期几之间有所差异,那么 agg() 可以让您将一个字典传递到您分组的 DataFrame ,指示哪些功能适用于特定的列。

Python语句:

tips.groupby('day').agg({'tip':np.mean, 'day':np.size})

image.png

按多列分组

SQL语句:

SELECT smoker, day, COUNT(*), AVG(tip) FROM tips GROUP BY smoker, day;
/*
smoker day
No     Fri      4  2.812500
       Sat     45  3.102889
       Sun     57  3.167895
       Thur    45  2.673778
Yes    Fri     15  2.714000
       Sat     42  2.875476
       Sun     19  3.516842
       Thur    17  3.030000
*/

Python语句:

tips.groupby(['smoker','day']).agg({'tip':[np.size,np.mean]})

image.png


缺失值的检查使用 notnull() 和 isnull() 

重新建立一个测试数据集:

df = pd.DataFrame({'col2':['A','B',np.NaN, 'C', 'D'],
                   'col1':['F', np.NaN, 'G','H','I']})

image.png
SQL语句:

SELECT * FROM df WHERE col2 IS NULL;

Python语句:

# 选择变量是col为null的行(观测)
df[df['col2'].isnull()]

image.png
SQL语句:

SELECT * FROM df WHERE col1 IS NOT NULL;

Python语句:

# 选择col1不是空值的行(观测)
df[df['col1'].notnull()]

image.png


JOIN

可以使用 join() 或 merge() 执行 JOIN 。 默认情况下, join() 将在其索引上加入 DataFrames 。 每个方法都有参数允许您指定要执行的连接类型(LEFT,RIGHT,INNER,FULL)或要加入的列(列名称或索引)。

df1 = pd.DataFrame({'key':['A','B','C','D'], 'value':np.random.randn(4)})
df2 = pd.DataFrame({'key':['B','D','D','E'], 'value':np.random.randn(4)})

image.pngimage.png

INNER JOIN

SQL语句:

SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1,df2, on = 'key')

image.png

indexed_df2 = df2.set_index('key')
pd.merge(df1, indexed_df2, left_on='key',right_index=True)

2019081316.png

LEFT OUTER JOIN

SQL语句:

-- show all records from df2
SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key=df2.key;

Python语句:

pd.merge(df1, df2, on = 'key', how='left')

image.png

RIGHT OUTER JOIN

SQL语句:

-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1, df2, on = 'key', how='right')

image.png

FULL JOIN

SQL语句:

-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1, df2 , on = 'key', how = 'outer')

image.png


UNION

新建数据集:

df1 = pd.DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'],
                    'rank': range(1, 4)})
df2 = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'],
                    'rank': [1, 4, 5]})

SQL语句:

SELECT city, rank FROM df1 
UNION ALL 
SELECT city, rank FROM df2;
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

Python语句:

pd.concat([df1,df2])

image.png
SQL UNION类似于UNION ALL,但是UNION将删除重复的行。

SELECT city, rank FROM df1
UNION
SELECT city, rank FROM df2;
-- notice that there is only one Chicago record this time
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
       Boston     4
  Los Angeles     5
*/

在pandas中,您可以使用 concat()  与 drop_duplicate() 结合使用。

pd.concat([df1, df2]).drop_duplicates()

转载于:https://www.cnblogs.com/selfcs/p/11345476.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PandasPython中一个强大的数据处理库,它提供了类似SQL的数据操作接口,使得在Python中进行数据清洗、转换和分析变得更加直观。Pandas的设计理念是提供一种灵活且高效的方式来操作表格数据,其DataFrame对象类似于SQL中的表。 在Pandas中,你可以使用以下方式来进行类似SQL的操作: 1. **选择和过滤数据**:`df.loc[]`, `df.iloc[]`, 或 `df.query()` 用于基于标签或位置选择行,这类似于SQL中的`SELECT`语句。 2. **数据清洗**:`dropna()`, `fillna()`, `replace()` 可以处理缺失值和数据替换,类似于SQL的`DELETE`, `UPDATE`。 3. **合并(JOIN)**:`merge()`, `concat()` 或者 `pd.DataFrame.merge()` 用于结合多个数据集,类似于SQL的`JOIN`操作。 4. **分组和聚合**:`groupby()` 对数据进行分组并计算聚合统计,类似于SQL的`GROUP BY`。 5. **排序和重塑数据**:`sort_values()`, `pivot_table()` 等函数用来排序和重新组织数据,类似于SQL的`ORDER BY`和`UNPIVOT`。 6. **条件查询**:通过布尔索引或者条件表达式,实现类似SQL的`WHERE`子句。 7. **窗口函数**:虽然Pandas没有直接的窗口函数,但可以使用`rolling()`, `expanding()` 等方法实现类似SQL的窗口函数效果。 8. **数据透视(Pivot)**:`pivot()` 和 `pivot_table()` 可以将数据按照特定列重新排列,类似于SQL的`PIVOT`。 需要注意的是,PandasSQL的执行效率和适用场景不同。在数据量较大时,Pandas可能会比SQL慢,但对小到中等规模的数据,Pandas的灵活性更高。如果你需要处理非常大的数据集或者高性能计算,那么SQL数据库可能更适合。不过,对于数据分析和探索性工作,Pandas的便捷性和直观性是其优势所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值