在Pandas中像写SQL一样做数据分析

在python中可以使用pandas包来进行类似SQL的数据查询,这篇文章就给出一些用pandas去做类似SQL的操作的例子。首先导入numpy和pandas包。

import numpy as np
import pandas as pd

本文使用tips数据集用来讲解类似SQL操作的例子,首先导入以DataFrame的形式的tips数据集

url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'
tips = pd.read_csv(url)

可以使用head()来展示数据集中的前5列数据

tips.head()
print(tips.head())

可以得到如下结果:
这里写图片描述
这里就取出了tips数据集中的前五行数据。
同样可以使用tail()来展示数据集中的后面5列数据

tips.tail()
print(tips.tail())

运行结果如下:
这里写图片描述
下面举例说明几种常见的SQL操作以及相对应的pandas中的操作。
(1)pandas的select操作:在SQL中,如果我们要从tips中选取前五行total_bill, tip, smoker和time几列数据,SQL的语法为:

select total_bill, tip, smoker, time
from tips
limit 5

在pandas操作中,这几列数据可以通过在DataFrame中写出要选取的列,语法如下:

tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
print(tips[['total_bill', 'tip', 'smoker', 'time']].head(5))

运行结果如下:
这里写图片描述
如果要选取所有的列,就不需要在DataFrame中填写参数,就像SQL的select *操作
2)pandas中的where操作:在SQL中,where操作语法为:

select * from tips where time = 'dinner' limit 5

pandas语法如下:

tips[tips['time'] == 'Dinner'].head(5)
print(tips[tips['time'] == 'Dinner'].head(5))

运行结果如下:
这里写图片描述
如果我们想知道tips数据集中有多少条数据是符合我们所要查找数据要求的,可以用如下操作:

is_dinner = tips['time'] == 'Dinner'
is_dinner.value_counts()

运行结果如下:
True 176
F

  • 11
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值