pandas是什么?
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
优点
-
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
-
pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
-
是使Python成为强大而高效的数据分析环境的重要因素之一。
查看pandas版本信息
print(pd.__version__)
pandas中常见的数据类型
常见的数据类型:
- 一维: Series
- 二维: DataFrame
- 三维: Panel ....
- 四维: Panel4D .....
- N维: PanelND ....
创建Series数据类型
1). 通过列表创建Series对象
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He"]
# 如果不指定索引, 默认从0开始;
s1=pd.Series(data=array)
print('列表创建Series对象,不指定索引\n',s1)
#指定索引,index设置索引值
ss1=pd.Series(data=array,index=['A','B','C'])
print('列表创建Series对象,指定索引\n',ss1)
通过numpy的对象Ndarray创建Series;
import pandas as pd
import numpy as np
import string
# 随机创建一个ndarray对象;
#元素为小数类型,即float类型
data=np.random.randn(5)
s2=pd.Series(data=data)
print('numpy的对象创建Series\n',s2)
# 修改元素的数据类型;
ss2=s2.astype(np.int)
print('修改元素的数据类型为int型\n',ss2)
3). 通过字典创建Series对象;
import pandas as pd
import numpy as np
import string
dict = {string.ascii_lowercase[i]:i for i in range(5)}
s3 = pd.Series(dict)
print('字典创建Series对象\n',s3)
Series基本操作
1). 修改Series索引
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He"]
s1=pd.Series(data=array)
print('原数据\n',s1)
#可以索引的范围
print('索引的范围',s1.index)
#修改索引值
s1.index = ['A', 'B', 'C']
print('修改后的数据\n',s1)
2). Series纵向拼接;
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He"]
s1=pd.Series(data=array)
print('原数据\n',s1)
#再生成一个Series对象
s2=pd.Series(data=array)
#将s2追加到s1中
s3=s1.append(s2)
print('追加后的数据\n',s3)
3). 删除指定索引对应的元素;
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He"]
s1=pd.Series(data=array)
print('原数据\n',s1)
# 删除索引为1对应的值;
s1 = s1.drop(1)
print('删除后的数据\n',s1)
4). 根据指定的索引查找元素
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He"]
s1=pd.Series(data=array,index = ['A', 'B', 'C'])
print('原数据\n',s1)
print('指定索引为B的对应元素值',s1['B'])
#指定索引为B的元素值为缺失值
s1['B']=np.nan
print('指定索引为B的元素值为缺失值\n',s1)
5). 切片操作
import pandas as pd
import numpy as np
import string
array = ["Me", "You", "He