![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学
lvla_juan
这个作者很懒,什么都没留下…
展开
-
stats.probplot(QQ图)
这是一种检验样本数据概率分布(例如正态分布)的方法。使用方法如下:fig = plt.figure()res = stats.probplot(train[‘SalePrice’], plot=plt) #默认检测是正态分布plt.show()...原创 2019-07-25 09:43:38 · 15610 阅读 · 4 评论 -
scipy.stats 用法
-- coding: utf-8 --from scipy import statsfrom numpy import randomDistributions常用分布可参考本文档结尾处分布可以使用的方法见下列清单data=random.normal(size=1000)stats.norm.rvs(loc=0,scale=1,size=10,random_state=None) ...转载 2019-07-25 09:48:23 · 6023 阅读 · 0 评论 -
数据分布的检验
对于数值型数据,在应用各种算法之前,首要做的了解一些数据的分布,然后根据情况看是否有必要对数据进行变换。了解数据的分布主要有两种手段:从图形的层面感性的认识一下常用的主要有两种方式:直方图和 q-q图。 关于直方图的定义我这里不做过多解释,网上资料很多。q-q图可以参考我的一篇博文:https://blog.csdn.net/lvla_juan/article/details/97235...原创 2019-07-25 19:23:04 · 1755 阅读 · 0 评论 -
简单线性回归的一般步骤
绘制散点图观察自变量和预测变量的线性或者非线性关系。如果是非线性关系,考虑合适的函数进行数据转换,使之成为线性关系观察立群点。如果存在离群点,考虑是否去掉它。使用最小二乘进行拟合,观察残差图和pp图如果残差和自变量有关系,考虑数据转换进行关系消除。如果残差具有异方差性(heteroscedasticity),可以考虑加权最小二乘法经过上面步骤,如果有需要进行数据转换然后跳转1...原创 2019-08-06 08:35:57 · 9179 阅读 · 0 评论