------------------pandas--------------------
15.Series只有1列,有索引,时间索引,不需要列名,可以根据列表和字典创建。Df=pd.Series(d)
16.DataFrame有多列,有索引(时间索引),有列名,需要在生成时加以创建,其中时间索引可以用np或者pd创建,pd.date_range函数可以设置开始,结束,个数,统计尺度,时区,是否包含边界等。从字典建造dataframe,键是列名。
17.
18.“切片”——取出行列 df.loc[:,[‘animal’,’age’]],参考np的冒号、逗号准则,如果是连续的数字则用:,如果是离散的或者字符形式行列则用[ ]。
19.对于特定行的提取,对切片后对数组设置判断语句得到True or False,从而进行提取,df[df[‘age’]>3] 或者 df[df[‘age’].isnull()], 多重判断用& |等。
20.改变值需要提供双重索引df.loc[‘f’,’age’]=1.5,注意逗号使用,表示不同维度。
21.直接统计在提取列之后直接(.+func), df[‘age’].sum().还可以统计某一列下某一特定属性在另一列内的统计值。df.groupby(‘animal’)[‘age’].mean(),groupby相当于汇总。
22.添加行和删除行df.loc[‘k’]=[1,2,3,4] df=df.drop(‘k’),直接使用索引建立
23.某一列的类统计df['animal'].value_counts(),以及多重列表排序df.sort_values(by=['age', 'visits'], ascending=[False, True])
24.列表的多处替换使用map函数进行映射,df['priority'] = df['priority'].map({'yes': True, 'no': False}),替换一个用replace即可。
25.生成一个统计表,制定列的类,行的列,值来自于哪一类,以及统计的方法df.pivot_table(index='visits', columns='animal', values='age', aggfunc='mean')
26.删除重复行df1 = df.drop_duplicates(subset='A')
27.axis='index' (instead of axis=0) or axis='columns' (instead of axis=1), df1 = df.sub(df.mean(axis='index'), axis='columns'),df.metho1d需要指定操作的轴,即行列,0是代表每一个数列,1是代表每一个行。需要注意!
28.对于dataframe,特别是全数值的需要查找排序,需要unstack()若定位坐标需要index。df.unstack().sort_values()[-3:].index.tolist()
29.时间索引的重采样并且统计。s.resample('M').mean()