python的pandas包怎么样_python中比较有用的package(II)-- pandas

------------------pandas--------------------

15.Series只有1列,有索引,时间索引,不需要列名,可以根据列表和字典创建。Df=pd.Series(d)

16.DataFrame有多列,有索引(时间索引),有列名,需要在生成时加以创建,其中时间索引可以用np或者pd创建,pd.date_range函数可以设置开始,结束,个数,统计尺度,时区,是否包含边界等。从字典建造dataframe,键是列名。

17.

18.“切片”——取出行列 df.loc[:,[‘animal’,’age’]],参考np的冒号、逗号准则,如果是连续的数字则用:,如果是离散的或者字符形式行列则用[ ]。

19.对于特定行的提取,对切片后对数组设置判断语句得到True or False,从而进行提取,df[df[‘age’]>3] 或者 df[df[‘age’].isnull()], 多重判断用& |等。

20.改变值需要提供双重索引df.loc[‘f’,’age’]=1.5,注意逗号使用,表示不同维度。

21.直接统计在提取列之后直接(.+func), df[‘age’].sum().还可以统计某一列下某一特定属性在另一列内的统计值。df.groupby(‘animal’)[‘age’].mean(),groupby相当于汇总。

22.添加行和删除行df.loc[‘k’]=[1,2,3,4] df=df.drop(‘k’),直接使用索引建立

23.某一列的类统计df['animal'].value_counts(),以及多重列表排序df.sort_values(by=['age', 'visits'], ascending=[False, True])

24.列表的多处替换使用map函数进行映射,df['priority'] = df['priority'].map({'yes': True, 'no': False}),替换一个用replace即可。

25.生成一个统计表,制定列的类,行的列,值来自于哪一类,以及统计的方法df.pivot_table(index='visits', columns='animal', values='age', aggfunc='mean')

26.删除重复行df1 = df.drop_duplicates(subset='A')

27.axis='index' (instead of axis=0) or axis='columns' (instead of axis=1), df1 = df.sub(df.mean(axis='index'), axis='columns'),df.metho1d需要指定操作的轴,即行列,0是代表每一个数列,1是代表每一个行。需要注意!

28.对于dataframe,特别是全数值的需要查找排序,需要unstack()若定位坐标需要index。df.unstack().sort_values()[-3:].index.tolist()

29.时间索引的重采样并且统计。s.resample('M').mean()a2d4b27c3d8cf9a9affde30c002180e9.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值