目录
一、功能定位
1、什么是pandas?
pandas,python+data+analysis的组合缩写,是python中基于numpy和matplotlib的第三方数据分析库,与后两者共同构成了python数据分析的基础工具包,享有数分三剑客之名。
2、pandas用来作什么?
pandas主要用于数据处理与分析,支持包括数据读写、数值计算、数据处理、数据分析和数据可视化全套流程操作。
二、数据结构
pandas的核心数据结构是一维的series和二维的dataframe。
1、dataframe
2、索引操作
2.1 Series索引
import pandas as pd
ser_obj = pd.Series(range(1,6), index = ['a','b', 'c', 'd', 'e'])
print(ser_obj.head())
print('*'*10,'行索引','*'*10)
print(ser_obj['b'])
print(ser_obj[3])
print('*'*10,'切片索引','*'*10)#注意,按索引名切片操作时,是包含终止索引的。
print(ser_obj[1:3])
print(ser_obj['b':'d'])
print('*'*10,'不连续索引','*'*10)
print(ser_obj[[0, 2, 4]])
print(ser_obj[['a', 'e']])
print('*'*10,'布尔索引','*'*10)
ser_bool = ser_obj > 2
print(ser_bool)
print(ser_obj[ser_bool])
print(ser_obj[ser_obj > 2])
2.2 DataFrame索引
import pandas as pd
import numpy as np
df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.head())
print('*'*10,'列索引','*'*10)
print(df_obj['a']) # 返回Series类型
print('*'*10,'不连续索引','*'*10)
print(df_obj[['a','c']])
print('*'*10,'高级索引:标签、位置和混合','*'*10)
print('*'*10,'标签索引 loc','*'*10)#第一个参数索引行,第二个参数是列
print(df_obj.loc[0:2, 'a'])
print(&