数据库vs 仓库
数据库->业务存储 针对应用
仓库->主题存储 针对分析
数据来源(Kaggle 阿里云天池)
在python console输入
import pandas as pd
df=pd.read_csv(“./data/HR.csv”) //引入数据库
df.head(10) //看10条
type(df)//看数据结构
df.mean() //求均值
df.median() //求中位数
df.quantile(q=0.25) //求四分位数
df.mode() //求众数
df.std() //标准差
df.var() //方差
df.skew() //偏态系数
df.kurt() //峰度系数
分布函数
import scipy.stats as ss
ss.norm //正态分布
ss.norm.status(moments=“mvsk”) //m:均值 v:方差 s:偏态系数 k:峰态系数
ss.norm.pdf(0.0) //pdf:正态概率密度函数 0.0对应的概率密度值 已知x求y
ss.norm.cdf(0) //0对应的累积概率(累积分布函数)即求x左侧积分
ss.norm.ppf(0.5) //0.5对应的分位点 已知概率倒推x
ss.norm.rvs(size=10) //得到10个符合正态分布规律的数
ss.t //t分布
ss.f //f分布
df.sample(n=10) //给df抽样
df.sample(franc=0.001) //指定抽百分比