Pandas DataFrame的基本属性详解

注:以下代码均在Jupyter中运行的。

基本功能列表

import pandas as pd 导入库

df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
创建一个DataFrame

代码功能
DataFrame()创建一个DataFrame对象
df.values返回ndarray类型的对象
df.iloc[ 行序,列序 ]按序值返回元素
df.loc[ 行索引,列索引 ]按索引返回元素
df.index获取行索引
df.columns获取列索引
df.axes获取行及列索引
df.T行与列对调
df. info()打印DataFrame对象的信息
df.head(i)显示前 i 行数据
df.tail(i)显示后 i 行数据
df.describe()查看数据按列的统计信息

创建一个DataFrame

DataFrame()函数的参数index的值相当于行索引,若不手动赋值,将默认从0开始分配。columns的值相当于列索引,若不手动赋值,也将默认从0开始分配。

data = {
        '性别':['男','女','女','男','男'],
        '姓名':['小明','小红','小芳','大黑','张三'],
        '年龄':[20,21,25,24,29]}
df = pd.DataFrame(data,index=['one','two','three','four','five'],
               columns=['姓名','性别','年龄','职业'])
df

运行结果:
在这里插入图片描述

df.values 返回ndarray类型的对象

ndarray类型即numpy的 N 维数组对象,通常将DataFrame类型的数据转换为ndarray类型的比较方便操作。如对DataFrame类型进行切片操作需要df.iloc[ : , 1:3]这种形式,对数组类型直接X[ : , 1:3]即可。

X = df.values
print(type(X)) #显示数据类型
X

运行结果:

<class 'numpy.ndarray'>
[['小明' '男' 20 nan]
 ['小红' '女' 21 nan]
 ['小芳' '女' 25 nan]
 ['大黑' '男' 24 nan]
 ['张三' '男' 29 nan]]

df.iloc[ 行序,列序 ] 按序值返回元素

df.iloc[1,1]

运行结果:

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

df.loc[ 行索引,列索引 ] 按索引返回元素

df.loc['one','性别']

运行结果:

df.index 获取行索引

df.index

运行结果:

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

df.columns 获取列索引

df.columns

运行结果:

Index(['姓名', '性别', '年龄', '职业'], dtype='object')

df.axes 获取行及列索引

df.axes

运行结果:

[Index(['one', 'two', 'three', 'four', 'five'], dtype='object'),
 Index(['姓名', '性别', '年龄', '职业'], dtype='object')]

df.T index 与 columns 对调

df.T

运行结果:
在这里插入图片描述

df.info() 打印DataFrame对象的信息

df.info()

运行结果:

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, one to five
Data columns (total 4 columns):
姓名    5 non-null object
性别    5 non-null object
年龄    5 non-null int64
职业    0 non-null object
dtypes: int64(1), object(3)
memory usage: 200.0+ bytes

df.head(i) 显示前 i 行数据

df.head(2)

运行结果:
在这里插入图片描述
若想要显示前几列数据,可用df.T.head(i)

df.tail(i) 显示后 i 行数据

df.tail(2)

运行结果:
在这里插入图片描述

df.describe() 查看数据按列的统计信息

可显示数据的数量、缺失值、最小最大数、平均值、分位数等信息

             年龄
count   5.000000
mean   23.800000
std     3.563706
min    20.000000
25%    21.000000
50%    24.000000
75%    25.000000
max    29.000000
pd.DataFrame()函数是pandas库中用于创建DataFrame对象的函数。它可以接受多种不同类型的参数来创建DataFrame。 以下是pd.DataFrame()函数的常用参数: 1. data:数据源,可以是以下几种形式: - 二维数组或列表:每个元素代表一行数据。 - 字典:字典的键作为列名,字典的值作为每列的数据。 - Series对象:每个Series对象代表一列数据。 - DataFrame对象:可以直接将一个DataFrame对象作为参数传入。 2. index:行索引,用于标识每行数据的索引值。可以是以下几种形式: - 数组或列表:每个元素代表一行的索引值。 - RangeIndex对象:使用RangeIndex对象来生成默认的整数索引。 - MultiIndex对象:用于创建多级索引。 3. columns:列索引,用于标识每列数据的索引值。可以是以下几种形式: - Index对象:使用Index对象来生成默认的列索引。 4. dtype:指定每列数据的数据类型。 5. copy:是否复制数据,默认为False。 下面是一个使用pd.DataFrame()函数创建DataFrame的例子: ```python import pandas as pd # 使用二维数组创建DataFrame data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]] df1 = pd.DataFrame(data, columns=['Name', 'Age']) # 使用字典创建DataFrame data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]} df2 = pd.DataFrame(data) # 使用Series对象创建DataFrame name = pd.Series(['Alice', 'Bob', 'Charlie']) age = pd.Series([25, 30, 35]) df3 = pd.DataFrame({'Name': name, 'Age': age}) # 使用DataFrame对象创建DataFrame df4 = pd.DataFrame(df3) print(df1) print(df2) print(df3) print(df4) ```
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值