今天有个任务,要计算成绩落在所有成绩的均值加减标准差内的成绩占所有成绩的比重,于是首先算出均值和标准差(就这我还踩了好久的坑,太菜了太菜了):
# grade是dataframe类型的
sd_grade <- sd(as.numeric(unlist(list(grade))))
mean_grade <- mean(as.numeric(unlist(list(grade))))
然后就可以开心地算比重liao:
grade[(grade>mean_grade-sd_grade) && (grade<mean_grade+sd_grade)]
哎,等等执行这一句之后的结果怎么还会是grade呢,我首先怀疑是优先级之类的问题,于是严谨得加了一重又一重的括号,然而并没有什么用,在进一步展开之前,可以先看一下grade的具体内容。
此时我们换个比较方式再试一次:
grade[(grade>80) && (grade<90)]
发现了吗,第二次与第一次有何区别,为什么第一次全部被选中了,而第二次却获得了空的数据框——第一次时,数据框的第一个元素是符合筛选条件的,而第二次却不符合,这恰恰反映了&&与&的重要区别,在面对一个向量时,&&只会考虑向量的第一个元素,而其他元素就直接搬来第一次比较的结果。
所以,只要换成&,就平安无事了。
最后再补一个坑,这样筛选出来的数据类型并不是原来的dataframe,因此计算比率要这样子:
fac <- length(grade[(grade>mean_grade-sd_grade) & (grade<mean_grade+sd_grade)])/nrow(grade)