1.基础知识
Pandas是什么?
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。最核心的就是Series和DataFrame两个数据结构,DateFrame最接近Python 字典数据结构
Series 1维 带有标签的同构类型数组
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。
DateFrame 2维 表格结构,带有标签,大小可变,且可以包含异构的数据列
DateFrame可以看做是Series的容器,一个可以包含多个Series.
DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典
2.Series
由于Series是一维结构的数据,我们可以直接通过数组来创建这种数据
例子1:
import pandas as pd
import numpy as np
series1=pd.Series([11,12,13,14])
print(series1)
在这里插入图片描述:数据在第二列输出,第一列是数据的索引,在pandas中称之为Index
例子2
import xlrd
import pandas as pd
import numpy as np
import openpyxl
df1=pd.Series([1,3,5,5,np.nan,"zzx",2])
print(df1)
结果为
并且我们可以分别打印出Series中的数据和索引
import pandas as pd
import numpy as np
series1=pd.Series([11,12,13,14])
print(series1.values)
print(series1.index)
print(list(series1.index))
为以上代码结果为:
默认情况下,索引为【0,N-1】的形式。不过我们也可以在创建Series的时候指定索引。索引未必是整数:
import pandas as pd
import numpy as np
series1=pd.Series([11,12,13,14],index=["ae","1b","ec","d