Pandas学习笔记(一)

最近在做Kaggle的练习赛,发现大家都在用pandas这个python数据分析的库来处理数据和提取特征。调研了一下Pandas,发现这个库真得非常方便。如果使用这个库来处理原始数据和提取特征,那么会大大提升工作效率。接下来准备花些时间学习一下这个库的使用。

Lesson1 参考资料: http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/01%20-%20Lesson.ipynb


读取CSV文件: 

Location = r'C:\Users\david\notebooks\update\births1880.csv'
df = pd.read_csv(Location)

df的全称是DataFrame,可以将一个数据表格视为一个由m行n列组成的数据帧,如下所示:



  Names Births
0 Bob 968
1 Jessica 155
2 Mary 77
3 John 578
4 Mel 973
df就标识着上面的这个表格。


访问表格内容:

使用df.Names或者df['Names']都可以将Names这一列取出来得到一个新的表格。而df[1:3]则可以取出表格中的1,2两行。


查看最大值等信息:

df['Births'].max()
df提供了max等方法,可以得到某一列数据的一些统计值


选取满足某些条件的行:
[df['Births'] == df['Births'].max()] ,可以得到birth为最大值的行组成的列表


画折线图来观察数据:


df['Births'].plot()

访问多行多列:

# df.ix[rows,columns]
df.ix[0:3,'Names']

df.loc['a']
利用loc方法和ix方法都可以读取多行

Pandans Groupby的具体说明:

http://pandas.pydata.org/pandas-docs/stable/groupby.html?highlight=transform




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值