pandas数据读取
pandas核心数据结构DataFrame
import pandas
food_info=pandas.read_csv("test.csv") #读取csv文件
food_info.dtypes #每个属性的类型
food_info.head(3) #显示前3行数据。 默认显示前5行数据
food_info.tail(3) #显示后3行数据
food_info.columns #列名
food_info.shape #size
pandas索引与计算
food_info.loc[0] #取第1行数据
food_info.loc[3:6] #slice操作
food_info["NDB_NO"] #取NDB_NO列数据
#取zinc_(mg)和copper_(mg)列数据,或者先把列名组成一个List
food_info["zinc_(mg)","copper_(mg)"]
food_info.columns.tolist() #tolist()转换成list
c.endswith("(g)") #以(g)结尾
food_info["NEW"]=iron_grams #新建一NEW列
food_info["NDB_NO"].max() #列最大值
pandas数据预处理实例
food_info.sort_values("NDB_NO",inplace=True) #对指定列进行排序,inplace表示在原列上还是新列
food_info.sort_values("NDB_NO",inplace=True,acsending=False) #acsending=False降序排列
age_is_null=pd.isnull(age) #判断数据是不是缺失值
age_null_true = age[age_is_null]
pandas常用预处理方法
good_ages=titanic_survival["age"][age_is_null==False] #过滤掉列中缺失值
correct_mean_age=titanic_survival["age"].mean() #自动过滤
passenger_survival=titanic_survival.pivot_table(index="pclass",values="survived",aggfunc=np.mean) #pivot_table() ,aggfunc默认值为np.mean
passenger_survival=titanic_survival.pivot_table(index="pclass",values=["Fare","survived"],aggfunc=np.sum)
new_titanic_survival=titanic_survival.dropna(axis=0,subset=["Age","sex"]) #丢掉对应属性有缺失值的样本
row_index_83_age=titanic_survival.loc[83,"age"] #定位具体值
pandas自定义函数
new_titanic_survival=titanic_survival.sort_values("Age",acsending=False)
titanic_reindexed=new_titanic_survival.reset_index(drop=True) #生成新的index
#apply()自定义函数
hundredth=titanic_survival.apply(hundredth_row) #hundredth_row为自定义的函数
series结构
DataFrame的行和列为series结构
from pandas import Series
Series_custom=Series(rt_scores,index=film_names) #生成Series,指定索引
Series_custom[['Minions(2015)','Leviathan(2014)']] #对应索引的rt_scores
Series_custom.sort_index() #按键进行排序
Series_custom.sort_values() #按值进行排序
np.add(series_custom,series_custom) #series相加
fandango_films=fandango.set_index('FILM',drop=False) #为DataFrame设置索引
fandango_films["Avengers":"Hot Tub"] #slice操作,setIndex后
fandango_films.loc['Kumiko'] #定位某一值