numpy只能处理数值类型的数据。pandas除了可以处理数值类型外,还可以处理非数值类型的数据(例如:字符串、时间序列等)
pandas常用的数据类型:Series(一维,带标签的数组,对应数据库中的一条记录);DataFrame(二维,Series容器,对应数据库中的表)
demo.py(Series的创建):
import pandas as pd # 需要pip安装
# 创建Series类型(带标签的数组)
t = pd.Series([13, 23, 33, 43, 53]) # 默认索引从0开始。 元素可以是数值类型,也可以是字符串类型。
print(type(t)) # <class 'pandas.core.series.Series'>
print(t)
'''
0 13
1 23
2 33
3 43
4 53
dtype: int64
'''
t2 = pd.Series([13, 23, 33, 43, 53], index=list("abcde")) # 可以通过index指定索引(索引个数要与元素个数一致)
print(t2)
'''
a 13
b 23
c 33
d 43
e 53
dtype: int64
'''
my_dict = {"name":"zhangsan", "age":18}
t3 = pd.Series(my_dict) # 可以通过字典创建Series。 dtype元素类型会根据情况自动修改
print(t3)
'''
age 18
name zhangsan
dtype: object
'''
t4 = pd.Series(my_dict, index=["age", "tel"]) # index指定的索引如果存在就正常显示,否则对应索引的值就是NaN
print(t4)
'''
age 18
tel NaN
dtype: object
'''