数据分析挖掘

1.numpy定义更高级的数据结构

scipy.org基于numpy数据结构进行数据科学计算:插值,统计计算

matplotlib:可视化

pandas:数据分析子分支

scikitlearn:数据发掘领域算法

k:神经网络和深度神经网络

2.数据结构

df:DataFrame

df["satisfaction_level"]:Series

中位数

分位数:将数从大到小排列,等分

分位数计算方法

离中趋势

数据分布:偏态与分布

众数

众数不唯一,返回的是一个series

离中趋势,std就是标准差

方差

求和

离散型数据求和:连接起来

偏态系数

若值为负:大多数值小于平均值

峰态系数:以正太系数为零为标准,负数表明比正太函数平缓

得到10个符合正态分布的数字

抽样函数

数据分类

注:['satisfaction_level']为其中的一列

查找异常值

丢弃空值

空值使用:

删除axis或column,how=“all”全是控制的时候才删除,how="any"只要有一个是空值就删除

均值

mean()

标准差

std()

最大值

max()

最小值

min()

中位数

median()

下分度值

quantile(q=0.25)

上分度值

quantile(q=0.75)

偏度

skew()

峰度

kurt()

条件:

筛选:(四分位间距=上四分位数-下四分位数)

直方图

直方图(2)

判断是否有异常值/空值

值的数目比例

数数排序:

区分:np.histogram和value_counts的区别

去除异常值

多个规则并列使用:

df[[][][][]]

分组

切片分组

python的几种函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值