数据集的基本信息(二)

  基本的介绍一些分布指标,稀疏性,缺失值和相关性。

  分布指标:  主要就是两个指标 ------- 偏度峰度

  可以由上一篇中带过的basicStats()函数获得,也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到

 

  偏度:  它用于衡量数据的偏倚程度,也就是数据的对称程度。

  skewness( Insurance[,4:5]  )     #  当其值在[-1,1]是认为没有完全的偏移,绝对值大于1时,认为有显著的偏移

                                                      #   小于-1时,有明显的左偏趋势,反之,亦然

 

 

  峰度: 用于衡量分布形态的陡峭程度,值的大小代表其与正态分布的差异程度,值越小,差异越小。

 

  值很大,说明有较为陡峭的峰部,极可能存在异常值。

 

  稀疏性:一种生成稀疏数据集的方法。

  使用sparseMatrix()生成      # dims是设置维度的方法

 

 

  缺失性:

  使用md.pattern()来得到需要观测的值

   

  #  54的意思代表用54个数据是完整的 最左边的代表这样的个数有多少个 最右边的代表,它缺失的属性个数

  #  最下边的代表缺失该属性的个数  右下角为缺失个数的统计

 

  相关性:

  使用cor( ) 实现起来很简单,但是还有些细节问题要去更加的升入,另外相关系数的绝对值高于0.75,我们就认为它们的相关系数很高,但是不是绝对的,要看具体的问题。

 

  相关性的展示用plotcorr()这个函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值