1.numpy定义更高级的数据结构
scipy.org基于numpy数据结构进行数据科学计算:插值,统计计算
matplotlib:可视化
pandas:数据分析子分支
scikitlearn:数据发掘领域算法
k:神经网络和深度神经网络
2.数据结构
df:DataFrame
df["satisfaction_level"]:Series
中位数
分位数:将数从大到小排列,等分
分位数计算方法
离中趋势
数据分布:偏态与分布
众数
众数不唯一,返回的是一个series
离中趋势,std就是标准差
方差
求和
离散型数据求和:连接起来
偏态系数
若值为负:大多数值小于平均值
峰态系数:以正太系数为零为标准,负数表明比正太函数平缓
得到10个符合正态分布的数字
抽样函数
数据分类
注:['satisfaction_level']为其中的一列
查找异常值
丢弃空值
空值使用:
删除axis或column,how=“all”全是控制的时候才删除,how="any"只要有一个是空值就删除
均值
mean()
标准差
std()
最大值
max()
最小值
min()
中位数
median()
下分度值
quantile(q=0.25)
上分度值
quantile(q=0.75)
偏度
skew()
峰度
kurt()
条件:
筛选:(四分位间距=上四分位数-下四分位数)
直方图
直方图(2)
判断是否有异常值/空值
值的数目比例
数数排序:
区分:np.histogram和value_counts的区别
去除异常值
多个规则并列使用:
df[[][][][]]
分组
切片分组
python的几种函数