一、单因子探索分析与可视化

最新推荐文章于 2021-08-06 15:24:32 发布

银河系少女

最新推荐文章于 2021-08-06 15:24:32 发布

阅读量265

点赞数 2

分类专栏：数据分析

本文链接：https://blog.csdn.net/MATLAB678/article/details/93380465

版权

本文主要介绍了如何进行单因子探索分析与可视化，包括读取csv文件查看基本信息，对连续值和离散值的分布分析，异常值检测以及简单的对比分析和可视化步骤。

摘要由CSDN通过智能技术生成

1.读取csv文件，查看基本信息

import pandas as pd
df=pd.read_csv('HR.csv')
df.head()  #查看前五行数据
type(df)  #查看数据类型
df.mean()  #平均值
df.median() #中值
df.quantile(q=0.25)  #四分位数
df.mode()   #众数
df.std()     #标准差
df.var()    #方差
df.sum()   #列求和
df.skew()  #偏态系数
df.kurt()   #峰态系数
Series和DataFrame基本信息情况相同
df['satisfaction_level'].skew()  #为负，平均值偏小，大部分值大于平均值

2.分布

import scipy.stats as ss
ss.norm   #正态分布
ss.norm.stats(moments='mvsk') #正态分布的均值，方差，偏态系数，峰态系数
ss.norm.pdf(0)   #指定横坐标，返回纵坐标的值
ss.norm.ppf(0.9)   #输入为0-1的数，表示从负无穷到多少的积分为0.9，从负无穷到正无穷积分为1
ss.norm.cdf(2) #表示从负无穷大到2的概率为多少
ss.norm.cdf(2)-ss.norm.cdf(-2) #表示从负2倍标准差到正两倍标准差之间的概率
ss.norm.rvs(size=10) #表示生成10个符合正态分布的数字
ss.chi2  #卡方分布
ss.t  #T分布
ss.f   #F分布
df.sample(n=10)  #随机抽取十行
df.sample(frac=0.001) #随机抽取0.1%的行

3.查看异常值

最低0.47元/天解锁文章

银河系少女

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、单因子探索分析与可视化

1.读取csv文件，查看基本信息import pandas as pddf=pd.read_csv('HR.csv')df.head() #查看前五行数据type(df) #查看数据类型df.mean() #平均值df.median() #中值df.quantile(q=0.25) #四分位数df.mode() #众数df.std() #标准差df.var(...
复制链接

扫一扫

专栏目录