Pandas是以Numpy为基础构建的、用以分析结构化数据的程序包。
在Pandas中两个重要的数据结构分别是序列(Serial)和数据框(DataFrame),Serial类似于Numpy中的一维数组,DataFrame类似于二维数组。可以将Pandas与Excel中数据结构看成是一样的。
Pandas常用的操作如下:
# -*- coding: utf-8 -*
import numpy as np
import pandas as pd
def main():
# 1、通过一维数组创建序列Serial
s = pd.Series(np.arange(10))
print("print1:")
print(s)
# 2、通过字典的方式创建序列Serial,索引是以‘a’、‘b’、‘c’命名
dic = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(dic)
print("print2:")
print(s)
# 3、通过字典进行创建数据框DataFrame,每一列数据添加标签
dic = {'A': [6, 2, 3, 4, 5, 1], 'B': [3, 4, 5, 6, 7, 8], 'C': [5, 6, 7, 8, 9, 0]}
df = pd.DataFrame(dic)
print("print3:")
print(df)
# 4、数据框DataFrame的开始n行和最后n行,默认5行
print("print4:")
print(df.head())
print(df.tail())
# print(df.head(1))
# print(df.tail(1))
# 5、数据框DataFrame的索引(行名称)和列(列名称)
print("print5:")
print(df.index)
print(df.columns)
# 6、显示基础的统计数据
print("print6:")
print(df.describe())
# 7、某一列排序
df1 = df.sort_values(by='A')
print("print7:")
print(df1)
# 8、DataFrame的转置
df2 = df1.T
print("print8:")
print(df2)
# 9、选择数据,选择A列
print("print9:")
print(df['A'])
# 10、选择数据,选择1-3行
print("print10:")
print(df[0: 3])
# 11、选择数据,选择2-3行,1-2列
print("print11:")
print(df.iloc[1: 3, 0: 2])
# 12、增加一列
df['D'] = pd.Series([4, 6])
print("print12:")
print(df)
# 13、去掉值为NaN的行
df1 = df.dropna(how='any')
print("print13:")
print(df1)
if __name__ == '__main__':
main()