1.读取csv文件,查看基本信息
import pandas as pd
df=pd.read_csv('HR.csv')
df.head() #查看前五行数据
type(df) #查看数据类型
df.mean() #平均值
df.median() #中值
df.quantile(q=0.25) #四分位数
df.mode() #众数
df.std() #标准差
df.var() #方差
df.sum() #列求和
df.skew() #偏态系数
df.kurt() #峰态系数
Series和DataFrame基本信息情况相同
df['satisfaction_level'].skew() #为负,平均值偏小,大部分值大于平均值
2.分布
import scipy.stats as ss
ss.norm #正态分布
ss.norm.stats(moments='mvsk') #正态分布的均值,方差,偏态系数,峰态系数
ss.norm.pdf(0) #指定横坐标,返回纵坐标的值
ss.norm.ppf(0.9) #输入为0-1的数,表示从负无穷到多少的积分为0.9,从负无穷到正无穷积分为1
ss.norm.cdf(2) #表示从负无穷大到2的概率为多少
ss.norm.cdf(2)-ss.norm.cdf(-2) #表示从负2倍标准差到正两倍标准差之间的概率
ss.norm.rvs(size=10) #表示生成10个符合正态分布的数字
ss.chi2 #卡方分布
ss.t #T分布
ss.f #F分布
df.sample(n=10) #随机抽取十行
df.sample(frac=0.001) #随机抽取0.1%的行
3.查看异常值