一、单因子探索分析与可视化

本文主要介绍了如何进行单因子探索分析与可视化,包括读取csv文件查看基本信息,对连续值和离散值的分布分析,异常值检测以及简单的对比分析和可视化步骤。
摘要由CSDN通过智能技术生成

1.读取csv文件,查看基本信息

import pandas as pd
df=pd.read_csv('HR.csv')
df.head()  #查看前五行数据
type(df)  #查看数据类型
df.mean()  #平均值
df.median() #中值
df.quantile(q=0.25)  #四分位数
df.mode()   #众数
df.std()     #标准差
df.var()    #方差
df.sum()   #列求和
df.skew()  #偏态系数
df.kurt()   #峰态系数
Series和DataFrame基本信息情况相同
df['satisfaction_level'].skew()  #为负,平均值偏小,大部分值大于平均值

2.分布

import scipy.stats as ss
ss.norm   #正态分布
ss.norm.stats(moments='mvsk') #正态分布的均值,方差,偏态系数,峰态系数
ss.norm.pdf(0)   #指定横坐标,返回纵坐标的值
ss.norm.ppf(0.9)   #输入为0-1的数,表示从负无穷到多少的积分为0.9,从负无穷到正无穷积分为1
ss.norm.cdf(2) #表示从负无穷大到2的概率为多少
ss.norm.cdf(2)-ss.norm.cdf(-2) #表示从负2倍标准差到正两倍标准差之间的概率
ss.norm.rvs(size=10) #表示生成10个符合正态分布的数字
ss.chi2  #卡方分布
ss.t  #T分布
ss.f   #F分布
df.sample(n=10)  #随机抽取十行
df.sample(frac=0.001) #随机抽取0.1%的行

3.查看异常值

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值