Datawhale学习
作者:杨煜,Datawhale成员
寄语:本文对Pandas基础内容进行了梳理,从文件读取与写入、Series及DataFrame基本数据结构、常用基本函数及排序四个模块快速入门。同时,文末给出了问题及练习,以便更好地实践。
知识体系框架
完整学习教程已开源,开源链接:
https://github.com/datawhalechina/joyful-pandas
文件的读取和写入
import pandas as pd
import numpy as np
# 加上这两行可以一次性输出多个变量而不用print
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# 查看版本
pd.__version__
pd.set_option('display.max_columns', None)
读取
Pandas常用的有以下三种文件:
csv文件
txt文件
xls/xlsx文件
读取文件时的注意事项:
文件路径是否正确,相对路径 ./data
编码方式 分隔符
列名
#读取csv文件
df = pd.read_csv('./data./table.csv')
df.head()
#读取txt文件,直接读取可能会出现数据都挤在一列上
df_txt = pd.read_table('./data./table.txt')
#df_txt = pd.read_table('./data./table.csv', sep=",")
df_txt.head()
#读取xls/xlsx文件
df_excel = pd.read_excel('./data./table.xlsx')
df_excel.head()
写入
将结果输出到csx、txt、xls、xlsx文件中
df.to_csv('./new table.csv')
df.to_excel('./new table.xlsx')
基本数据结构
Pandas处理的基本数据结构有 Series 和 DataFrame。两者的区别和联系见下表:
Series
1. 创建
Series常见属性有 values, index, name, dtype
s = pd.Series(np.random.randn(5), index=['a','b'