python数据处理----数据对象常用的属性、方法

B.Bz

已于 2022-04-19 19:59:08 修改

阅读量1.6k

点赞数

分类专栏： Pandas数据处理文章标签： python 数据分析

于 2022-04-19 10:48:50 首次发布

本文链接：https://blog.csdn.net/bjsyc123456/article/details/124264490

版权

Pandas数据处理专栏收录该内容

15 篇文章 1 订阅

订阅专栏

读取CSV文件为DataFrame对象

使用read_csv()方法读取csv数据成为DataFrame对象：

import pandas as pd
# pd.read_csv('路径')读取csv文件
data = pd.read_csv('../data/nobel_prizes.csv')
# 打印数据
print(data)
# DataFrame的head()方法 获取前5条数据
data.head()

在这里插入图片描述

发现数据有id读出的数据还是生成了索引，所以读取的时候以id为索引：

# index_col='以xx字段为索引'
data = pd.read_csv('../data/nobel_prizes.csv',index_col='id')

在这里插入图片描述

获取到DataFrame中的一条Series数据：

同样Series可以使用loc属性获取到key的value值
```
# loc属性   data.loc[索引值]
first_row = data.loc[941]
first_row.loc['year']
```

Series和Dataframe的常用属性

index和values属性

# 获取Key索引
Series.index
# 获取value值
Series.values

在这里插入图片描述

size属性

# 获取数据中元素的数量
first_row.size

shape属性

# 获取数据的维度
first_row.shape
data.shape

在这里插入图片描述

T属性，反转矩阵

一维数组反转了矩阵还是一样

data.T
first_row.T

在这里插入图片描述

根据下标取子集

data.iloc[下标]

在这里插入图片描述

常用属性：

属性	说明
loc	使用索引值取子集
iloc	使用索引位置取子集
dtype或dtypes	Series内容的类型
T	Series的转置矩阵
shape	数据的维数
size	Series中元素的数量
values	Series的值

Series和Dataframe的常用方法

mean()方法获取平均值

# 获取到data数据中share这一列  获奖人数
share = data['share']
# 获取到这一列的平均值
share.mean()

max() 获取最大值

share.max()

min() 获取最小值

share.min()

std() 计算标准差

share.std()

numpy中标准差（方差的平方根）和方差的计算：

数组的所有元素都减去平均值再开平方加起来算出平均值的平方根就是标准差

在这里插入图片描述

value_counts()获取不同值的数量
count()返回一列中非空的值的数量，如果是DataFrame对象使用count()会返回所有列的非空值的数量

在这里插入图片描述

describe()打印描述信息

在这里插入图片描述

常用的方法：

方法	说明
append	连接两个或多个Series
corr	计算与另一个Series的相关系数
cov	计算与另一个Series的协方差
describe	计算常见统计量
drop_duplicates	返回去重之后的Series
equals	判断两个Series是否相同
hist	绘制直方图
isin	Series中是否包含某些值
min	返回最小值
max	返回最大值
mean	返回算术平均值
median	返回中位数
mode	返回众数
quantile	返回指定位置的分位数
replace	用指定值代替Series中的值
sample	返回Series的随机采样值
sort_values	对值进行排序
to_frame	把Series转换为DataFrame
unique	去重返回数组

B.Bz

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python数据处理----数据对象常用的属性、方法

读取CSV文件为DataFrame对象使用read_csv()方法读取csv数据成为DataFrame对象：import pandas as pd# pd.read_csv('路径')读取csv文件data = pd.read_csv('../data/nobel_prizes.csv')# 打印数据print(data)# DataFrame的head()方法获取前5条数据data.head()发现数据有id读出的数据还是生成了索引，所以读取的时候以id为索引：# ind
复制链接

扫一扫