1:什么是pandas
定义:Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
作用:numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于bumpy),还能够帮助我们处理其他类型数据。
2:pandas的常用数据类型
- Series 一维,带标签数组
- DataFrame 二维,Series容器
pd.Series([1,2,3,4], index=list('asdf'))
temp_dict = {'name': 'xiaohong', 'age': 18, 'tel':10086}
temp = pd.Series(temp_dict)
print(temp)
3:Series的切片和索引
Series对象本质上由两个数组构成,一个数组构成对象的键(index,索引),一个数组构成对象的值(values), 键->值
ndarray的很多方法都可以运用于series类型,例如:argmax, clip,series也有where方法,但是结果跟ndarray不同。
t1 = pd.Series([1,2,3,4], index=list('asdf'))
#
temp_dict = temp_dict = {'name': 'xiaohong', 'age': 18, 'tel':10086}
t2 = pd.Series(temp_dict)
print(t2)
print(t1[1])
print(t1[0:])
print(t1[[1, 3]])
print(t2['age'])
print(t2[['age', 'tel']])
print(t2[[1, 2]])
# 当按照键取值没有的话会是NAN
print(t1.index) # index类型可迭代 Index(['a', 's', 'd', 'f'], dtype='object') list(t1.index)
print(type(t1.index), len(t1.index)) # <class 'pandas.core.indexes.base.Index'> 4
print(t1.values) # [1 2 3 4] object类型
print(type(t1.values)) # <class 'numpy.ndarray'>