pandas中的核心数据结构是序列Series和数据框DataFrame;
Series类似于numpy中的一维数组;DataFrame类似于numpy中的二维数组。
Series是个定长的字典序列,有两个默认属性:索引index和数据values,索引默认是从0开始,也可以自己指定索引。
Series输出包含两列,索引列和数据列,如下图,左边是索引列,右边是数据列。
数据可以通过索引来获取,例如a[索引]=数据,通过索引获取数据。
import pandas as pd
from pandas import Series,DataFrame
a = Series([1,2,3,4])
#不指定index索引,则默认索引从0开始
b = Series(data = [1,2,3,4],index = ['a','b','c','d'])
#指定index索引
print(a)
print(b)
#通过索引获取元素值
print(a[3]) #这里的3是索引号,索引3对应的是“4”这个元素
print(b['b']) #这里的‘b’是索引号,‘b’对应的是2这个元素
print(a[[1,3]])
#a中的索引1和索引3的元素,索引号和值对应输出
数据框DataFrame是类似于二维数组有一列索引列和多列数据列,数据以表格形式存储,有对应的行和列。
DataFrame的创建方式:通过二维数组创建数据框,左边是索引,最上面一行是列名,和表格形式一样。
pandas统计分析:
前序知识如下:
CSDNhttps://mp.csdn.net/mp_blog/creation/editor/124152704