1.使用pandas从一个csv文件中筛选部分数据
import pandas as pd
df1 = pd.read_csv('1.csv')
df2 = pd.read_csv('2.csv')
idx_for_df1 = df1['列标'].isin(df2['列标']) # 使用DataFrame.isin 筛选列标字符一样的行
df_final = df1[idx_for_df1] # df_final 是你想要的结果
2.获取DataFrame对象的行数
len(df.index) #df为DataFrame对象
3.统计列的空值的数目
df.isnull().sum()
4.查看数据(查看对象的方法对于Series来说同样适用)
4.1 查看DataFrame前xx行或后xx行
df=DataFrame(data);
df.head(6)#表示显示前6行数据,若head()中不带参数则会显示全部数据。
df.tail(6)#表示显示后6行数据,若tail()中不带参数则也会显示全部数据。
4.2 查看DataFrame的index,columns以及values
df.index
df.columns #(3以上版本无次函数);
df.values
4.3 describe()函数对于数据的快速统计汇总
df.describe()#对每一列数据进行统计,包括计数,均值,std,各个分位数等。
4.4 对数据的转置
df.T
4.5 对轴进行排序
df.sort_index(axis=1,ascending=False)#其中axis=1表示对所有的columns进行排序,下面的数也跟着发生移动。后面的ascending=False表示按降序排列,参数缺失时默认升序。
4.6 对DataFrame中的值排序
df.sort(columns='x')#即对df中的x这一列,从小到大进行排序。注意仅仅是x这一列,而上面的按轴进行排序时会对所有的columns进行操作。
5. 选择对象
5.1 选择特定列和行的数据
df['x']#那么将会返回columns为x的列,注意这种方式一次只能返回一个列。df.x与df['x']意思一样。
#取行数据,通过切片[]来选择 如:df[0:3] 则会返回前三行的数据。
import pandas as pd
if __name__=="__main__":
path="./test.csv"
df=pd.read_csv(path)
print("df:\n%s\n\n" % df)
#选择指定列
df_result=df[['DEVICE_ID','LNG','LAT']]
print("df_r