Datawhale学习
作者:杨煜,Datawhale成员
寄语:本文对Pandas基础内容进行了梳理,从文件读取与写入、Series及DataFrame基本数据结构、常用基本函数及排序四个模块快速入门。同时,文末给出了问题及练习,以便更好地实践。
知识体系框架
完整学习教程已开源,开源链接:
https://github.com/datawhalechina/joyful-pandas
文件的读取和写入
import pandas as pdimport numpy as np# 加上这两行可以一次性输出多个变量而不用printfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"# 查看版本pd.__version__pd.set_option('display.max_columns', None)
读取
Pandas常用的有以下三种文件:
csv文件
txt文件
xls/xlsx文件
读取文件时的注意事项:
文件路径是否正确,相对路径 ./data
编码方式 分隔符
列名
#读取csv文件df = pd.read_csv('./data./table.csv')df.head()#读取txt文件,直接读取可能会出现数据都挤在一列上df_txt = pd.read_table('./data./table.txt')#df_txt = pd.read_table('./data./table.csv', sep=",")df_txt.head()#读取xls/xlsx文件df_excel = pd.read_excel('./data./table.xlsx')df_excel.head()
写入
将结果输出到csx、txt、xls、xlsx文件中
df.to_csv('./new table.csv')df.to_excel('./new table.xlsx')
基本数据结构
Pandas处理的基本数据结构有 Series 和 DataFrame。两者的区别和联系见下表:
Series
1. 创建
Series常见属性有 values, index, name, dtype
s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'],