R语言 | 数据汇总与简单图表制作

最新推荐文章于 2024-07-21 14:34:30 发布

天下弈星~

最新推荐文章于 2024-07-21 14:34:30 发布

阅读量2.7k

点赞数 3

分类专栏： R语言文章标签： r语言开发语言

本文链接：https://blog.csdn.net/m0_70452407/article/details/130629455

版权

R语言专栏收录该内容

17 篇文章 10 订阅

订阅专栏

一、准备工作

1.1 下载MASS扩展包与crabs对象

1.2 准备与调整系统内建state相关的对象

3.2.1 认识统计学名词——标准差、方差

五、认识数据汇集整理函数summary()

六、绘制箱形图

七、数据的相关性分析

7.1 iris对象数据的相关性分析

7.2 stateUSA对象数据的相关性分析

一、准备工作

1.1 下载MASS扩展包与crabs对象

crabs数据框是澳大利亚收集的公、母（参杂蓝、橘2色）各100只螃蟹，共计200只的测量数据。

其中sex字段是公母，CL是螃蟹甲壳长度，CW是螃蟹甲壳宽度。

1.2 准备与调整系统内建state相关的对象

1.3 准备mtcars对象

二、了解数据的唯一值

对于某些数据框的变量字段的数据元素而言，到底是以数值呈现还是以因子呈现较好，完全视所需要分析的数据类型而定，基本原则是若数据可以当作分类数据，则可以考虑改成因子。另外，也可以由数据的唯一值的计数判断，一般计数值少的字段也适合改成因子。

三、基础统计知识与R语言

对于大量的数据集我们多会研究两个基本性质，一个是集中趋势，另一个是离散程度。

3.1 数据的集中趋势

通常数据会聚集在中位数附件，这样的模式就被称为集中趋势，中位数也可以看作是数据的中心代表，常被用来测量集中趋势的指标有以下三种：平均数、中位数、众数。

3.1.1 认识统计学名词——平均数

所谓的平均数是指在一个数据集中，所有观察值的总和除以观察值总个数所得的数值。

在R语言中，可以使用mean()函数获得平均值。

3.1.2 认识统计学名词——中位数

所谓中位数是指一组可排序的数据中，将数据切成后50%及前50%的值（或是最中间的值），也就是将数据排序以后恰好有一半的数据大于中位数，也恰有一半的数据小于或等于中位数。简单说如果数据量是奇数，最中间的数字就是中位数；如果数据量是偶数，则最中间的两个数字的平均值就是中位数。在R语言中，可以使用median()函数获得中位数。

3.1.3 认识统计学名词——众数

所谓众数是指在数据集中，出现次数最多的值。R语言中目前没有求众数的函数。

3.2 数据的离散程度

衡量离散（变化）程度的标准有标准差、方差、极差、四分位数、百分位数等。

3.2.1 认识统计学名词——标准差、方差

sd()：标准差函数。

var()：方差函数。

3.2.2 认识统计学名词——极差

所谓极差是指数据集中最大观察值减掉最小观察值所得的数值，实际上可想成数据的范围。

事实上R语言提供了range()函数，可列出数据的最大值与最小值。

3.3.3 认识统计学名词——四分位数

所谓四分位数是指将数据集（由小到大）分成4等份的三个数值，其中第1个四分位数通常为第25%的数值，第2个四分位数也就是中位数（通常为第50%的数值），而第3个四分位数通常为第75%的数值。我们可以利用quantile()函数取得这些值。

对上述实例而言，共有8个数据，所以第2个四分位数也就是中位数，序位的计算为(8+1)/2=4.5，也就是第4个数据和第5个数据的平均值，得到的结果为(11+23)/2=17；第1个四分位数（也就是25%）的序位数是由序位的最小值1与中位数的序位数4.5取平均数，即(1+4.5)/2=2.75，再由第2个数据和第3个数据取内插求得，所以是(3+0.75*(5-3))，得到的结果是4.5，依此类推。