统计模型与R软件选择填空题
第三章数据描述性分析
1.统计分析分为统计描述和统计判断两部分
2.统计描述是通过绘制统计图、编制统计表、计算统计量方法来表述数据的分布特征
3.研究数据的数字特征即分析数据的集中位置、分散程度和数据分布
4.描述定量资料的集中趋势的统计量常用的有均值mean()、众数、中位数、百分位数
5.计算数据的加权平均值weighted.mean(x,w,na.rm=FALSE)其中x是数值向量;w是数据的权,与x的维度相同;na.rm意义与mean()函数相同,该函数可以对矩阵和数组计算加权平均值,对数据框不适用
6.顺序统计量:sort(),中位数median(),百分位数quantile(),变异系数CV(),方差函数var().求协方差矩阵cov(),求相关矩阵cor(),std_mean()是样本的标准误,css是样本矫正平方和,uss是样本未校正平方和,skewness是样本峰度系数,kurtosis是样本偏度系数
7.样本极差是描述样本分散性的数据特征,偏度系数是刻画数据的对称性指标
8.对数据分布的主要描述方法有直方图,茎叶图和数据的理论分布即总体分布
9.正态分布函数:dnorm(),pnorm(),qnorm(),rnorm()。离散随机变量:dpois(),ppois(),qpois(),rpois()
10.直方图hist()每个区间长度称为组距(组距太小,每组的频数较小,邻近区间频数很大;组距太大,直方图所反映的形态就不灵敏),高度可以是频数,频率或频率/数组,若高度是频率/数组,每一矩形面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。
11.核密度估计函数density();经验分布ecdf();QQ图qqnorm(),qqline();茎叶图stem();箱线图boxpolt();正态性检验Shapiro.test();
12.高水平作图函数:plot()、pairs()、coplot()、qqnorm()、qqline()、hist()、和contour()、dotchart()、三维图形的映象image()、三维图形的等值线contour
()、三维图形的表面曲线persp()。低水平作图函数:points()、lines()、text()、abline()、ploygon()、legend()、title()、axis()
13.箱线图里面能看出最大值、最小值、中位数、及上下四分位数,没有异常值。
14.计算相关性检验cor.test()的三种检验方法:Spearman秩检验、Kendall秩检验和Pearson相关性检验;计算加权协方差cov.wt()
15.轮廓图outline(),星图starts(),调和曲线图unison()