python数据分析处理库-Pandas

最新推荐文章于 2022-11-12 19:37:20 发布

Eztt_W

最新推荐文章于 2022-11-12 19:37:20 发布

阅读量226

点赞数

分类专栏： python学习文章标签： python pandas

本文链接：https://blog.csdn.net/Eztt_W/article/details/88543959

版权

python学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

官方教程

pandas数据读取

pandas核心数据结构DataFrame

import pandas
food_info=pandas.read_csv("test.csv")  #读取csv文件
food_info.dtypes  #每个属性的类型

food_info.head(3)  #显示前3行数据。 默认显示前5行数据
food_info.tail(3)  #显示后3行数据

food_info.columns  #列名

food_info.shape   #size

pandas索引与计算

food_info.loc[0]  #取第1行数据
food_info.loc[3：6] #slice操作 

food_info["NDB_NO"] #取NDB_NO列数据
#取zinc_(mg)和copper_(mg)列数据，或者先把列名组成一个List
food_info["zinc_(mg)","copper_(mg)"] 

food_info.columns.tolist() #tolist()转换成list
c.endswith("(g)")  #以(g)结尾

food_info["NEW"]=iron_grams #新建一NEW列

food_info["NDB_NO"].max()  #列最大值

pandas数据预处理实例

food_info.sort_values("NDB_NO",inplace=True) #对指定列进行排序，inplace表示在原列上还是新列
food_info.sort_values("NDB_NO",inplace=True，acsending=False) #acsending=False降序排列 

age_is_null=pd.isnull(age)  #判断数据是不是缺失值
age_null_true = age[age_is_null]

pandas常用预处理方法

good_ages=titanic_survival["age"][age_is_null==False]  #过滤掉列中缺失值
correct_mean_age=titanic_survival["age"].mean()  #自动过滤

passenger_survival=titanic_survival.pivot_table(index="pclass",values="survived",aggfunc=np.mean)  #pivot_table() ,aggfunc默认值为np.mean
passenger_survival=titanic_survival.pivot_table(index="pclass",values=["Fare","survived"],aggfunc=np.sum)  

new_titanic_survival=titanic_survival.dropna(axis=0,subset=["Age","sex"])  #丢掉对应属性有缺失值的样本

row_index_83_age=titanic_survival.loc[83,"age"]  #定位具体值

pandas自定义函数

new_titanic_survival=titanic_survival.sort_values("Age",acsending=False) 
titanic_reindexed=new_titanic_survival.reset_index(drop=True)  #生成新的index
#apply()自定义函数
hundredth=titanic_survival.apply(hundredth_row)  #hundredth_row为自定义的函数

series结构

DataFrame的行和列为series结构

from pandas import Series
Series_custom=Series(rt_scores,index=film_names)  #生成Series,指定索引
Series_custom[['Minions(2015)','Leviathan(2014)']]  #对应索引的rt_scores

Series_custom.sort_index()   #按键进行排序
Series_custom.sort_values()  #按值进行排序  

np.add(series_custom,series_custom)  #series相加

fandango_films=fandango.set_index('FILM',drop=False)  #为DataFrame设置索引
fandango_films["Avengers":"Hot Tub"]  #slice操作，setIndex后
fandango_films.loc['Kumiko']  #定位某一值

Eztt_W

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据分析处理库-Pandas

pandas数据读取pandas核心数据结构DataFrameimport pandasfood_info=pandas.read_csv(&amp;quot;test.csv&amp;quot;) #读取csv文件food_info.dtypes #每个属性的类型food_info.head(3) #显示前3行数据。默认显示前5行数据food_info.tail(3) #显示后3行数据food_info...
复制链接

扫一扫