pandas模块是python用于数据导入与整理的模块,对数据挖掘前期数据的处理工作十分有用。
pandas模块的数据结构主要有两种:
1.Series
2.DataFrame
Series
注:以下的所有pandas都简称为pd(import pandas as pd)
- 介绍:
series结构是一个一维的标签矩阵,类似于python里面的字典key-value结构。 - 常用方法:
创建Series对象
# 用列表创建series对象
array=[" 粉条 " , " 粉丝 " , " 粉带 " ]
s1=pd.series(data=array)
print(s1)
"""
0 粉条
1 粉带
2 粉丝
dtype: object
"""
# 如果不指定索引默认从0开始,dtype为数据的类型
ss1=pd.Series(data=array,index=[ ' A ' , ' B ' , ' C '])
print(ss1)
"""
A 粉条
B 粉带
C 粉丝
dtype: object
"""
# 通过numpy的对象Ndarray创建Series:
n=np.random.randn(5) # 随机创建一个ndarray对象;
s2=pd.Series(data=n)
print(s2)
"""
0 -1.387049
1 -0.527612
2 -0.389382
3 0.549090
4 0.122328
dtype: float64
"""
# 修改元素的数据类型
ss2=s2.astype(np.int) # 也可以修改为nan缺失值
print(ss2)
"""
0 -1
1 0
2 0
3 0
4 0
dtype: int64
"""
# 通过字典创建Series对象
dict={string.ascii_lowercase[i]:i for i in range(10)}
s3=pd.Series(dict)
print(s3)
"""
a 0
b 1
c 2
d 3
e 4
f 5
g 6
h 7
i 8
j 9
dtype: int64
"""
对Series元素进行操作
array=[' 粉条 ' , ' 粉丝 ' , ' 粉带 ']
s1=pd.Series()
# 修改Series的索引值,默认索引为0,1,2,3...
s1.index=[ 'A' , 'B' , 'C']
print(s1)
"""
A 粉条
B 粉带
C 粉丝
dtype: object
"""
# Series纵向拼接
array=[' 粉条 ' , ' 粉丝 ' , ' 粉带 ']
s2=pd.Series(data=array)
s3=s1.append(s2)
print(s3)
"""
A 粉条
B 粉带
C 粉丝
0 粉条
1 粉带
2 粉丝
dtype: object
"""
#删除指定索引对应的元素
s3=s3.drop('C')
print(s3)
"""
A 粉条
B 粉带
0 粉条
1 粉带
2 粉丝
dtype: object
"""
# 根据指定的索引查找元素
pri