使用 Pandas 查看数据

最新推荐文章于 2024-07-01 18:10:02 发布

liweiwei1419

最新推荐文章于 2024-07-01 18:10:02 发布

阅读量7.8k

点赞数 2

分类专栏：数据分析文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lw_power/article/details/83180900

版权

数据分析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

简单查看数据

dataframe.head()

数据的维度

dataframe.shape 属性

数据的属性和类型

dataframe.dtypes 属性

统计性描述

dataframe.describe()

数据分组分布

print(data.groupby('class').size())

数据属性的相关性

设置数据的精度

import pandas as pd

# 显示数据的相关性
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
pd.set_option('display.width', 100)
# 设置数据的精确度
pd.set_option('precision', 2)
print(data.corr(method='pearson'))

pearson 相关系数

dataframe.corr(method='pearson')

数据的分布分析

偏度 data.skew()

偏度是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，两个统计量需要与正态分布相比较。
偏度 Skewness（三阶）：三阶中心距除以标准差的三次方；
偏度为 0 表示其数据分布形态与正态分布的偏斜程度相同；
偏度大于 0 表示其数据分布形态与正态分布相比为正偏或右偏，即有一条长尾巴拖在右边，数据右端有较多的极端值；
偏度小于 0 表示其数据分布形态与正态分布相比为负偏或左偏，即有一条长尾拖在左边，数据左端有较多的极端值；
偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

峰度 data.kurt()

峰度 Kurtosis（四阶）：概率密度在均值处峰值高低的特征，常定义四阶中心矩除以方差的平方，减去三。
峰度是描述总体中所有取值分布形态陡缓程度的统计量；
这个统计量需要与正态分布相比较；
峰度为 0 表示该总体数据分布与正态分布的陡缓程度相同；
峰度大于 0 表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；
峰度小于 0 表示该总体数据分布与正态分布相比较为平坦，为平顶峰；
峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

参考资料：机器学习数学|偏度与峰度及其 Python 实现
https://blog.csdn.net/u013555719/article/details/78530879?utm_source=blogxgwz4

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。