Python自学入门(六)：Pandas之数据结构

最新推荐文章于 2023-07-24 20:57:48 发布

专治八阿哥的孟老师

最新推荐文章于 2023-07-24 20:57:48 发布

阅读量246

点赞数

分类专栏： Python 文章标签： python pandas 数据结构

本文链接：https://blog.csdn.net/u011731544/article/details/129487011

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章介绍了Python数据分析库Pandas的安装及基础数据结构Series和DataFrame。Series是一维数据结构，可保存任意类型数据并通过索引访问；DataFrame是二维表格数据结构，由行和列构成，每一列是一个Series。文章还展示了如何创建和操作这两个数据结构。

摘要由CSDN通过智能技术生成

Python自学入门(一)：环境安装
 Python自学入门(二)：数据类型和运算符
 Python自学入门(三)：数据类型详解
 Python自学入门(四)：流程控制
 Python自学入门(五)：函数和模块

五、Pandas

Pandas是python中用于数据分析的一个扩展库，安装pandas，在命令行中执行

pip3 install pandas

在这里插入图片描述

安装成功后，执行可以在程序中引入pandas

import pandas

5.1 数据结构

Pandas中的数据结构，包括Series和DataFrame两种。

Series相当与一维数组，可以看作表格中的一个列，可以保存任何类型的数据，通过索引访问元素。

DataFrame是二维数组(表格)，由行和列组成。

在这里插入图片描述

5.1.1 Series

pandas.Series( data, index, dtype, name, copy)

data：一组数据。
index：数据索引标签，如果不指定，默认从 0 开始。

import pandas
a = ['Java','Python','HTML5']
s1 = pandas.Series(a)
print(s1)
print(s1[0]) #根据索引访问元素，索引默认从0开始递增

s2 = pandas.Series(a,index=['x','y','z'])  #指定索引
print(s2)
print(s2['y'])  #根据索引访问

#使用字典创建Series,key会变成索引
dic={"k1":"java","k2":"python","k3":"h5"}
s3 = pandas.Series(dic)
print(s3)
#只需要字典中的一部分，指定需要保留的key
s4 = pandas.Series(dic,index=["k1","k2"])
print(s4)
print(s4.index)  #索引
print(s4.values) #值

5.1.2 DataFrame

在这里插入图片描述

DataFrame可以被看做是多个Series组成的表格，每一列是一个Series，它们共用一个索引。

data：一组数据。
index：数据索引标签，如果不指定，默认从 0 开始。
columns：列名

#使用列表创建
data1=[['Kate',18],['John',17],['Tom',19]]
df1 = pandas.DataFrame(data1,columns=['Name','Age'])
print(df1)

#使用 ndarrays 创建
data2 = {'Name':['Kate', 'John', 'Tom'], 'Age':[18, 17, 19]}
df2 = pandas.DataFrame(data2,index=['A','B','C'])
print(df2)

#使用字典创建
data3 = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df3 = pandas.DataFrame(data3)
print(df3)

DataFrame常用属性

grades=['A','B','C','D']
subject=['数学','语文','英语']
array=[[5,30,40],[23,19,46],[76,35,43],[56,43,21]]
data=pandas.DataFrame(data=array,index=grades,columns=subject)
print(data.shape)  #形状(行,列)
print(data.index)  #索引
print(data.columns) #列名
print(data.values)  #值
print(data.T)  #转置
print(data.head(3))  #前几行
print(data.tail(2))  #后几行
#修改索引，不支持单独修改某一行的索引，需要全部修改
grades=['甲','乙','丙','丁']
data.index=grades
print(data)
d1=data.reset_index() #旧索引会变成一列
print(d1)
d2=data.reset_index(drop=True) #不保留旧索引
print(d2)
d3=data.set_index('数学') #设置某一列为索引,drop=True删除原来的列
print(d3)