基本的介绍一些分布指标,稀疏性,缺失值和相关性。
分布指标: 主要就是两个指标 ------- 偏度和峰度
可以由上一篇中带过的basicStats()函数获得,也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到
偏度: 它用于衡量数据的偏倚程度,也就是数据的对称程度。
skewness( Insurance[,4:5] ) # 当其值在[-1,1]是认为没有完全的偏移,绝对值大于1时,认为有显著的偏移
# 小于-1时,有明显的左偏趋势,反之,亦然
峰度: 用于衡量分布形态的陡峭程度,值的大小代表其与正态分布的差异程度,值越小,差异越小。
值很大,说明有较为陡峭的峰部,极可能存在异常值。
稀疏性:一种生成稀疏数据集的方法。
使用sparseMatrix()生成 # dims是设置维度的方法
缺失性:
使用md.pattern()来得到需要观测的值
# 54的意思代表用54个数据是完整的 最左边的代表这样的个数有多少个 最右边的代表,它缺失的属性个数
# 最下边的代表缺失该属性的个数 右下角为缺失个数的统计
相关性:
使用cor( ) 实现起来很简单,但是还有些细节问题要去更加的升入,另外相关系数的绝对值高于0.75,我们就认为它们的相关系数很高,但是不是绝对的,要看具体的问题。
相关性的展示用plotcorr()这个函数。