描述性数据汇总---提供数据总体行为,有助于识别噪声和离群点

一.度量数据的中心趋势(均值mean、中位数median、众数mode、中列数midrange)

在完全对称的数据分布单峰曲线mean=media=mode

1.均值mean

对应于关系型数据库内部的聚集函数avg(),avg()=sum()/count()是一种代数度量sum()和count()是分布式度量(将数据划分成较小数据集后度量)

加权平均


2.中位数media(由于计算中位数需要进行整体度量,开销太大,计算近似中位数算法)假定把数据集划分成区间,并指导每个区间的频率(个数),令包含中位数频率的区间为中位数区间有

L1为中位数区间的下界,N为整个数据集的个数,为中位数以前的频率的和为中位数区间的频率 为在中位数区间的宽度


3.众数mode=3*media-2*mean(对于适度倾斜的单峰曲线)

4.中列数midrange=max-min

二.度量数据的离散趋势(极差range,五数概括five-number summary,中间四分位数极差interquartile  range,IQR,方差variance)

1.极差range=max-min

2.五数概括【minimum,Q1,media,Q3,maximum】

3.中间四分位数极差IQR=Q3-Q1

4.方差和标准差


三.描述数据汇总的图形显示

1.直方图(条形图)

2.分位数图quantile plot(显示所有数据允许用户评估总的情况和不寻常出现)

Xi(i=1......N)是安递增排列的数据

令 Fi=(i-0.5)/N

画(Xi,Fi)图像 

3.分位数-分位数图/q-q图

Xi(i=1......N)是安递增排列的数据

Yi(i=1......N)是安递增排列的数据

令 Fi=(i-0.5)/N

画(Xi,Yi)图像 

4.散布图(scatter plot确定俩个数据属性看上去是否有联系、模式或趋势)散布图矩阵 解决n个属性问题

画(x,y)

5.loess曲线 在散布图中添加一条光滑曲线(需要设置俩参数--光滑参数阿拉法,被回归拟合的多项式的次数辣么大,阿拉法在0.25到1之间,辣么大在1或2,阿拉法越大,曲线越光滑)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值