R语言进行描述性统计分析_r tables of numerical summaries

最新推荐文章于 2024-07-18 16:58:05 发布

2401_84182636

最新推荐文章于 2024-07-18 16:58:05 发布

阅读量1k

点赞数 14

分类专栏： 2024年程序员学习文章标签： r语言 python 前端

本文链接：https://blog.csdn.net/2401_84182636/article/details/137660245

版权

2024年程序员学习专栏收录该内容

58 篇文章 0 订阅

订阅专栏

Describe 参数:
x 要进行统计分析的对象，比方说是个数据框
descript x中变量的名字
exclude.missing 是不是要打印包含缺失值的那些变量
digits 有效数字位数
Hmisc包中的describe()函数可返回变量和观测的数量、缺失值和唯一值的数目、平均值、
分位数，以及五个最大的值和五个最小的值。Info描述数据的连续性，Gmd为基尼均差。
1.3 stat.desc 函数的格式及参数意义
调用格式：stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)
stat.desc 参数
x 要进行统计分析的对象，比方说是个数据框
basic 是不是返回一些基本的统计结果比如输入的观测值个数，每个变量所含缺失值的个数，最大值，最小值等
desc 是不是返回各种描述性统计结果比如均值，中值，标准差，置信区间等
norm 是不是返回正态分布统计量
p 计算置信区间的显著性水平

2．利用上述函数对数据的编程分析
2．1 三种函数的基本编程及其主要分析结果
（1） summary函数
vars <- c(“mpg”, “hp”, “wt”)
head(mtcars[, vars])
summary(mtcars[, vars])

【程序说明】：
(1)mtcars是R自带的数据集里的一个描述的是一些汽车的特征，进入R之后就可以使用，这个mtcars是一个数据框
(2)mtcars一共有11个变量，我们使用vars <- c(“mpg”, “hp”, “wt”), 从中选取三个变量
(3) head(mtcars[,vars])查看数据框开头的6个数据
（4）summary(mtcars[, vars])统计三个变量的描述性统计信息。

（2）describe 函数
library(Hmisc)
vars <- c(“mpg”, “hp”, “wt”)
head(mtcars[, vars])
describe(mtcars[, vars])

【程序说明】：
同上。
（3）stat.desc 函数
library(pastecs)
vars <- c(“mpg”, “hp”, “wt”)
head(mtcars[, vars])
stat.desc(mtcars[vars],norm = T)

任务1

读取student_BMI.csv中21个学生的相关数据，分别使用sort，rank，order对BMI进行排序。

# 读取CSV文件数据
data <- read.csv("student\_BMI.csv")

# 提取BMI数据
bmi_data <- data$BMI

# 使用sort对BMI进行排序
sorted_bmi <- sort(bmi_data)
print("Sorted BMI:")
print(sorted_bmi)

# 使用rank对BMI进行排名
bmi_rank <- rank(bmi_data)
print("BMI Rank:")
print(bmi_rank)

# 使用order获取排序的顺序索引
bmi_order <- order(bmi_data)
print("BMI Order:")
print(bmi_order)

任务2

随机产生21名学生的高数和英语成绩向量，并加入到上题产生的数据框中。

# 随机生成高数和英语成绩向量
set.seed(123)  # 设置随机种子以确保结果可重现
math_scores <- round(runif(21, min = 60, max = 100), 2)  # 随机生成高数成绩
english_scores <- round(runif(21, min = 60, max = 100), 2)  # 随机生成英语成绩

# 将随机生成的高数和英语成绩添加到数据框中
data$Math_Score <- math_scores
data$English_Score <- english_scores

任务3：

对BMI，高数，英语成绩进行描述性统计分析。指出这三项的一些描述性指数
，包括最小值、最大值、极差、平均数、方差、标准差、变异系数。

# 定义函数计算描述性统计指标
describe_stats <- function(x) {
  stats <- c(
    min = min(x),
    max = max(x),
    range = max(x) - min(x),
    mean = mean(x),
    variance = var(x),
    sd = sd(x),
    coefficient_of_variation = sd(x) / mean(x)
  )
  return(stats)
}

# 对BMI、高数和英语成绩进行描述性统计分析
bmi_stats <- describe_stats(data$BMI)
math_stats <- describe_stats(data$Math_Score)
english_stats <- describe_stats(data$English_Score)

# 输出描述性统计指标
cat("BMI Descriptive Statistics:\n")
print(bmi_stats)

cat("\nMath Score Descriptive Statistics:\n")
print(math_stats)

cat("\nEnglish Score Descriptive Statistics:\n")
print(english_stats)

问题4

有50个小区水稻产量的资料如下：
37 46 38 38 39 35 35 33 35 36 36 35 38 34 35 37 37 32 36 35
39 39 42 33 36 36 38 34 35 38 36 33 33 35 34 28 30 33 35 36
34 41 39 43 36 35 26 34 35 31
（1）使用hist函数画出其直方图，使用density函数加入密度曲线，使用table统计产量频数，并进行简单分析。

# 50个小区水稻产量数据
yield_data <- c(37, 46, 38, 38, 39, 35, 35, 33, 35, 36, 36, 35, 38, 34, 35, 37, 37, 32, 36, 35,
                39, 39, 42, 33, 36, 36, 38, 34, 35, 38, 36, 33, 33, 35, 34, 28, 30, 33, 35, 36,
                34, 41, 39, 43, 36, 35, 26, 34, 35, 31)


**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/d805d2e46be3635a49eb35b60240a151.png)
![img](https://img-blog.csdnimg.cn/img_convert/3e9bde8adec41aa4d3f1244a6be7cb27.png)
![img](https://img-blog.csdnimg.cn/img_convert/4e20311fa5b545135925d9b03a837e7b.png)
![img](https://img-blog.csdnimg.cn/img_convert/9521f0d6ad03791049b1d45cf6202d00.png)
![img](https://img-blog.csdnimg.cn/img_convert/310fd4f6e18136e1afdda6c76539c92c.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
![img](https://img-blog.csdnimg.cn/img_convert/1e2c6d11d287be542077059ca701ed04.png)

真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
[外链图片转存中...(img-ibtngR3U-1712860201548)]

2401_84182636

关注

14
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
R语言进行描述性统计分析_r tables of numerical summaries

Describe 参数:x 要进行统计分析的对象，比方说是个数据框descript x中变量的名字exclude.missing 是不是要打印包含缺失值的那些变量digits 有效数字位数Hmisc包中的describe()函数可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数，以及五个最大的值和五个最小的值。Info描述数据的连续性，Gmd为基尼均差。1.3。
复制链接

扫一扫