python的pandas包怎么样_python中比较有用的package（II）-- pandas

最新推荐文章于 2024-07-25 22:34:08 发布

啟潍

最新推荐文章于 2024-07-25 22:34:08 发布

阅读量231

点赞数

文章标签： python的pandas包怎么样

本文链接：https://blog.csdn.net/weixin_34754795/article/details/113673318

版权

------------------pandas--------------------

15.Series只有1列，有索引，时间索引，不需要列名，可以根据列表和字典创建。Df=pd.Series(d)

16.DataFrame有多列，有索引(时间索引)，有列名，需要在生成时加以创建，其中时间索引可以用np或者pd创建,pd.date_range函数可以设置开始，结束，个数，统计尺度，时区，是否包含边界等。从字典建造dataframe，键是列名。

17.

18.“切片”——取出行列 df.loc[:,[‘animal’,’age’]],参考np的冒号、逗号准则，如果是连续的数字则用：，如果是离散的或者字符形式行列则用[ ]。

19.对于特定行的提取，对切片后对数组设置判断语句得到True or False，从而进行提取，df[df[‘age’]>3] 或者 df[df[‘age’].isnull()], 多重判断用& ｜等。

20.改变值需要提供双重索引df.loc[‘f’,’age’]=1.5，注意逗号使用，表示不同维度。

21.直接统计在提取列之后直接(.+func), df[‘age’].sum().还可以统计某一列下某一特定属性在另一列内的统计值。df.groupby(‘animal’)[‘age’].mean()，groupby相当于汇总。

22.添加行和删除行df.loc[‘k’]=[1,2,3,4] df=df.drop(‘k’)，直接使用索引建立

23.某一列的类统计df['animal'].value_counts()，以及多重列表排序df.sort_values(by=['age', 'visits'], ascending=[False, True])

24.列表的多处替换使用map函数进行映射，df['priority'] = df['priority'].map({'yes': True, 'no': False}),替换一个用replace即可。

25.生成一个统计表，制定列的类，行的列，值来自于哪一类，以及统计的方法df.pivot_table(index='visits', columns='animal', values='age', aggfunc='mean')

26.删除重复行df1 = df.drop_duplicates(subset='A')

27.axis='index' (instead of axis=0) or axis='columns' (instead of axis=1), df1 = df.sub(df.mean(axis='index'), axis='columns'),df.metho1d需要指定操作的轴，即行列，0是代表每一个数列，1是代表每一个行。需要注意！

28.对于dataframe,特别是全数值的需要查找排序，需要unstack()若定位坐标需要index。df.unstack().sort_values()[-3:].index.tolist()

29.时间索引的重采样并且统计。s.resample('M').mean()

啟潍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的pandas包怎么样_python中比较有用的package（II）-- pandas

------------------pandas--------------------15.Series只有1列，有索引，时间索引，不需要列名，可以根据列表和字典创建。Df=pd.Series(d)16.DataFrame有多列，有索引(时间索引)，有列名，需要在生成时加以创建，其中时间索引可以用np或者pd创建,pd.date_range函数可以设置开始，结束，个数，统计尺度，时区，是否包含边...
复制链接

扫一扫