R语言进行描述性统计分析_r tables of numerical summaries

2401_84166536

于 2024-04-13 13:56:26 发布

阅读量482

点赞数 21

分类专栏：程序员文章标签： r语言开发语言

本文链接：https://blog.csdn.net/2401_84166536/article/details/137714069

版权

程序员专栏收录该内容

184 篇文章 0 订阅

订阅专栏

bmi_rank <- rank(bmi_data)
print(“BMI Rank:”)
print(bmi_rank)

使用order获取排序的顺序索引

bmi_order <- order(bmi_data)
print(“BMI Order:”)
print(bmi_order)


### 任务2


随机产生21名学生的高数和英语成绩向量，并加入到上题产生的数据框中。

随机生成高数和英语成绩向量

set.seed(123) # 设置随机种子以确保结果可重现
math_scores <- round(runif(21, min = 60, max = 100), 2) # 随机生成高数成绩
english_scores <- round(runif(21, min = 60, max = 100), 2) # 随机生成英语成绩

将随机生成的高数和英语成绩添加到数据框中

data $Math_Score <- math_scores data$ English_Score <- english_scores


### 任务3：


对BMI，高数，英语成绩进行描述性统计分析。指出这三项的一些描述性指数  
 ，包括最小值、最大值、极差、平均数、方差、标准差、变异系数。

定义函数计算描述性统计指标

describe_stats <- function(x) {
stats <- c(
min = min(x),
max = max(x),
range = max(x) - min(x),
mean = mean(x),
variance = var(x),
sd = sd(x),
coefficient_of_variation = sd(x) / mean(x)
)
return(stats)
}

对BMI、高数和英语成绩进行描述性统计分析

bmi_stats <- describe_stats(data $BMI) math_stats <- describe_stats(data$ Math_Score)
english_stats <- describe_stats(data$English_Score)

输出描述性统计指标

cat(“BMI Descriptive Statistics:\n”)
print(bmi_stats)

cat(“\nMath Score Descriptive Statistics:\n”)
print(math_stats)

cat(“\nEnglish Score Descriptive Statistics:\n”)
print(english_stats)


### 问题4


有50个小区水稻产量的资料如下：  
 37 46 38 38 39 35 35 33 35 36 36 35 38 34 35 37 37 32 36 35  
 39 39 42 33 36 36 38 34 35 38 36 33 33 35 34 28 30 33 35 36  
 34 41 39 43 36 35 26 34 35 31  
 （1）使用hist函数画出其直方图，使用density函数加入密度曲线，使用table统计产量频数，并进行简单分析。

50个小区水稻产量数据

yield_data <- c(37, 46, 38, 38, 39, 35, 35, 33, 35, 36, 36, 35, 38, 34, 35, 37, 37, 32, 36, 35,
39, 39, 42, 33, 36, 36, 38, 34, 35, 38, 36, 33, 33, 35, 34, 28, 30, 33, 35, 36,
34, 41, 39, 43, 36, 35, 26, 34, 35, 31)

绘制直方图

hist(yield_data, breaks = 10, col = “skyblue”, xlab = “Yield”, ylab = “Frequency”,
main = “Histogram of Rice Yield”)

添加密度曲线

lines(density(yield_data), col = “red”)

使用 table 统计产量频数

yield_freq <- table(yield_data)
print(“Frequency of Yields:”)
print(yield_freq)


（2）利用上问的频数分布计算基本统计数，包括样本容量、最小值、最大值、极差、平均数、方差、标准差、变异系数。

计算基本统计数

sample_size <- length(yield_data) # 样本容量
min_value <- min(yield_data) # 最小值
max_value <- max(yield_data) # 最大值
range_value <- max_value - min_value # 极差
mean_value <- mean(yield_data) # 平均数
variance_value <- var(yield_data) # 方差
sd_value <- sd(yield_data) # 标准差
cv_value <- sd_value / mean_value * 100 # 变异系数

输出基本统计数

cat(“Sample Size:”, sample_size, “\n”)
cat(“Min Value:”, min_value, “\n”)
cat(“Max Value:”, max_value, “\n”)
cat(“Range:”, range_value, “\n”)
cat(“Mean:”, mean_value, “\n”)
cat(“Variance:”, variance_value, “\n”)
cat(“Standard Deviation:”, sd_value, “\n”)
cat(“Coefficient of Variation:”, cv_value, “%\n”)




**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/dc8ddbf010eff913ebecff1617e5829a.png)
![img](https://img-blog.csdnimg.cn/img_convert/07d41899b05db42adc6c6ddd0c58e7fd.png)
![img](https://img-blog.csdnimg.cn/img_convert/3e17ecf0c284fe1b2f4c38232eb18e26.png)
![img](https://img-blog.csdnimg.cn/img_convert/0dc9e7ed331acad11589da380ba30d04.png)
![img](https://img-blog.csdnimg.cn/img_convert/0a9dc33dba0c36eca24212934a366fd9.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
![img](https://img-blog.csdnimg.cn/img_convert/50eb2eecc8523a09a73522f9ddefd101.png)

**一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

获取）**
[外链图片转存中...(img-N94k1xek-1712987710435)]

**一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**