没有安装pandas的,需提前安装pip install pandas. 想比其他第三方库,pandas的数据处理能力非常强,不仅仅体现在处理速度上,在形式方法上也非常优秀。
import pandas as pd
1.处理excel
df = pd.read_excel(file_path,sheet_name="sheet1")
这个方法可以读取xlsx和xls格式的文件,如果不加sheet_name,则默认读取第一个sheet.
此时df的数据类型是pandas.core.frame.DataFrame,
可以用da = df.to_dict(orient='records') 或者 das = df.to_json(orient='records')方法转换成字典格式。当然不转的化,也可以操作。
可以这样理解:df本身就是键值对的格式,excel文件的列名就是键,列的内容就是值,可以通过df["column_name"]获取这一列的内容。
也可用:data = df.loc[:,["column_name1","column_name2","column_name3"]].values 的方法获取指定列的内容。不过,此时data是array的格式。如果没有["column_name1","column_name2","column_name3"],则是把所有列转为array格式。
df.to_excel(ile_path,sheet_name="sheet1",index=False)
把处理过的数据写入excel,这里的df是pandas.core.frame.DataFrame的格式,index=False会舍去行号。
2.处理csv
df = pd.read_csv(file_path)
获取所有数据,因为csv文件只有一个sheet,不支持excel那样的多个sheet,所以没有sheet_name 参数。
进行处理的方法就和上面的一样了。
df.to_csv(file_name,mode="a", index=False, header=False)
写入csv文件。mode="a"表示追加到文件尾部,不写的话,默认是“w" ,与open 方法的参数一样。header=False表示没有列名。