bmi_rank <- rank(bmi_data)
print(“BMI Rank:”)
print(bmi_rank)
使用order获取排序的顺序索引
bmi_order <- order(bmi_data)
print(“BMI Order:”)
print(bmi_order)
### 任务2
随机产生21名学生的高数和英语成绩向量,并加入到上题产生的数据框中。
随机生成高数和英语成绩向量
set.seed(123) # 设置随机种子以确保结果可重现
math_scores <- round(runif(21, min = 60, max = 100), 2) # 随机生成高数成绩
english_scores <- round(runif(21, min = 60, max = 100), 2) # 随机生成英语成绩
将随机生成的高数和英语成绩添加到数据框中
data M a t h S c o r e < − m a t h s c o r e s d a t a Math_Score <- math_scores data MathScore<−mathscoresdataEnglish_Score <- english_scores
### 任务3:
对BMI,高数,英语成绩进行描述性统计分析。指出这三项的一些描述性指数
,包括最小值、最大值、极差、平均数、方差、标准差、变异系数。
定义函数计算描述性统计指标
describe_stats <- function(x) {
stats <- c(
min = min(x),
max = max(x),
range = max(x) - min(x),
mean = mean(x),
variance = var(x),
sd = sd(x),
coefficient_of_variation = sd(x) / mean(x)
)
return(stats)
}
对BMI、高数和英语成绩进行描述性统计分析
bmi_stats <- describe_stats(data
B
M
I
)
m
a
t
h
s
t
a
t
s
<
−
d
e
s
c
r
i
b
e
s
t
a
t
s
(
d
a
t
a
BMI) math_stats <- describe_stats(data
BMI)mathstats<−describestats(dataMath_Score)
english_stats <- describe_stats(data$English_Score)
输出描述性统计指标
cat(“BMI Descriptive Statistics:\n”)
print(bmi_stats)
cat(“\nMath Score Descriptive Statistics:\n”)
print(math_stats)
cat(“\nEnglish Score Descriptive Statistics:\n”)
print(english_stats)
### 问题4
有50个小区水稻产量的资料如下:
37 46 38 38 39 35 35 33 35 36 36 35 38 34 35 37 37 32 36 35
39 39 42 33 36 36 38 34 35 38 36 33 33 35 34 28 30 33 35 36
34 41 39 43 36 35 26 34 35 31
(1)使用hist函数画出其直方图,使用density函数加入密度曲线,使用table统计产量频数,并进行简单分析。
50个小区水稻产量数据
yield_data <- c(37, 46, 38, 38, 39, 35, 35, 33, 35, 36, 36, 35, 38, 34, 35, 37, 37, 32, 36, 35,
39, 39, 42, 33, 36, 36, 38, 34, 35, 38, 36, 33, 33, 35, 34, 28, 30, 33, 35, 36,
34, 41, 39, 43, 36, 35, 26, 34, 35, 31)
绘制直方图
hist(yield_data, breaks = 10, col = “skyblue”, xlab = “Yield”, ylab = “Frequency”,
main = “Histogram of Rice Yield”)
添加密度曲线
lines(density(yield_data), col = “red”)
使用 table 统计产量频数
yield_freq <- table(yield_data)
print(“Frequency of Yields:”)
print(yield_freq)
(2)利用上问的频数分布计算基本统计数,包括样本容量、最小值、最大值、极差、平均数、方差、标准差、变异系数。
计算基本统计数
sample_size <- length(yield_data) # 样本容量
min_value <- min(yield_data) # 最小值
max_value <- max(yield_data) # 最大值
range_value <- max_value - min_value # 极差
mean_value <- mean(yield_data) # 平均数
variance_value <- var(yield_data) # 方差
sd_value <- sd(yield_data) # 标准差
cv_value <- sd_value / mean_value * 100 # 变异系数
输出基本统计数
cat(“Sample Size:”, sample_size, “\n”)
cat(“Min Value:”, min_value, “\n”)
cat(“Max Value:”, max_value, “\n”)
cat(“Range:”, range_value, “\n”)
cat(“Mean:”, mean_value, “\n”)
cat(“Variance:”, variance_value, “\n”)
cat(“Standard Deviation:”, sd_value, “\n”)
cat(“Coefficient of Variation:”, cv_value, “%\n”)
**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**
**深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**
**因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/dc8ddbf010eff913ebecff1617e5829a.png)
![img](https://img-blog.csdnimg.cn/img_convert/07d41899b05db42adc6c6ddd0c58e7fd.png)
![img](https://img-blog.csdnimg.cn/img_convert/3e17ecf0c284fe1b2f4c38232eb18e26.png)
![img](https://img-blog.csdnimg.cn/img_convert/0dc9e7ed331acad11589da380ba30d04.png)
![img](https://img-blog.csdnimg.cn/img_convert/0a9dc33dba0c36eca24212934a366fd9.png)
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**
![img](https://img-blog.csdnimg.cn/img_convert/50eb2eecc8523a09a73522f9ddefd101.png)
**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
获取)**
[外链图片转存中...(img-N94k1xek-1712987710435)]
**一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**