专升本计算机的数学考不考正态分布,高考成绩不一定是正态分布

如果认为高考成绩是一个随机变量f5b1ecbb4359411f5e5b79995f336d83.png,那么X服从什么分布?

我很早就想写篇博文跟大家讨论高考 成绩的分布问题,无奈前段时间博导给的事情有点多,就把这个问题放在一边了。最近这不又到高考的时候了,我想如果能对高考成绩的分布多一些了解,说不定对报志愿能有一些帮助。

先给出结果吧,我在网上搜了一下,因为北京的高考成绩最容易找到,而其中关于2012年的高考成绩分布【1】记录的又更为详细,于是楼主就拿2012年北京理工科高考成绩画了下面这张分布图。

5e1db060fcf87dec0d19f1346feace0e.png

图1.蓝色的直方图是样本的分布,红线是正态分布,绿线是我认为的分布。横轴是考试成绩,纵轴是靠这个成绩的学生占总人数的比例。

为了方便阅读,我先只说我是怎么做的,至于为什么这么做,我会在后面的分析中解释。

首先,从网上拿到的数据也不是特别细,比如【1】只会告诉我600到610这个区间有779个人,但是不会告诉我这些人具体考多少分。所以,我首先要做一点点数据的恢复(重采样)。怎么办呢?我用计算机生成779个均匀分布在600到610这个区间的离散随机数。比如600,600.5,601,。。。609.5。

其次,根据第一步的办法,我得到了43496个样本,于是我画出了这些样本的分布直方图,就是上图中那个蓝蓝的柱状图。因为我做了第一步,所以手里的样本多了很多。反之,如果我不做第一步,直方图就会是一些大块,不容易反映出数据的分布。

第三步,我计算了样本的方差和平均值,用红线画出了如果假设样本服从正态分布,那么理论上样本分布应该满足的形状。它是一个均值为450,标准差为109.5的正态分布。

第四步,其实我内心里不认为样本服从高斯分布,我认为样本应该是服从高斯混合分布。话句话说,我认为考生有不止一类人,有教育条件非常好的重点中学学生,也有条件非常差的农民工学校子弟,还有一部分在中间的普通人。总之,不管怎么分类,学生都不止一类。对于每一类人,他们的考试成绩都是服从相同的正态分布,但是对于不同类的学生,他们的考试成绩服从不同的正态分布。于是,总体的分布是这些正态分布的混合。

做个类比,要统计西安市民的收入分布,可能就不是一个正态分布,而是几个正态分布混在一起。因为有些职业收入高,有些职业收入低,有些职业收入在中间。如果职业差异大,那这个几个分布就更不能用一个正态分布来替代了。

有些读者可能会奇怪,为什么全国人民的身高服从正态分布呢?楼主认为这是因为东北人没有比四川人高得太多【2】。(见谅见谅,我不是区分地域,我就是看了一下统计数据。)因为不同省份的分布也比较接近,所以混在一起看起来说是一个正态分布也无妨。

言归正传。我根据样本经验性的将学生分三类(其实我就是用不同的参数试了好几次,找了一组比较靠谱的结果,说得好听点,呵呵。),比例分别是:

[0.05    0.88    0.07]

期望是:

[195    450    600]

标准差是:

[40    92    33]

可以从上图中明显的看到,绿线和样本的分布更加接近,尤其是两百分左右那个“小山包”,实在是无法用单独的正态分布解释。还有,大家都知道高考分数分布是非对称的,高分段学生会密一些,差一分就差N多人,这是因为有一类学霸考试成绩就不会低于500(第三个高斯分布)。

按我的理解,有时候假设数据服从正态分布并不是很合理。这样做会使问题过于简化,也许会导致后续的分析有失偏颇。比如我很不喜欢有些大学要把学生的成绩“正态化”,甚至用一些奇奇怪怪的公式(一般是一一映射)把本来的分布生生扭曲成“正态分布”,还仅仅是长得像正态分布的分布。

枉我当年还觉得这些公式好厉害,现在看这不就是凑数字,蒙小孩么?是为了好管理么?晕,反正我想不出来这么做的道理在哪里。人家明明就不是正态分布么,强扭的瓜不甜好不好。不过还好貌似现在越来越少的学校做这种事情了。

楼主认为评价学生应该用聚类分析,就是ABCD那种,95和96没有本质区别。如果成绩是分得比较开的高斯多模分布,那我还更容易给学生分类了。

再评论一下高斯混合模型。这个东西用处很广泛,就拿我们实验室的东西来说吧,接收机得到的信号有可能有“多径效应”,就会产生不止一个“钟形曲线”。再比如,有个同学做心电图的信号处理,病人至少可以分成两类,有病的没病的,所以他拿到的心电图,就服从一个混合分布。

我用这个高斯混合模型来描述样本的分布,不是因为我看见了数据,才这么拟合它。在我看到数据以前,我就有理由把成绩分布建模成GMM模型。第一,成绩750分是所有题目得分的和,750很大,根据大数定律,每个学生的成绩都近似是正态分布。第二,学生可以明显的分成若干类,每一类的参数不同。其实这个GMM的背后,是一个贝叶斯分层模型。

最后呢,说实话,这些参数都是我试了几次试出来的,见笑见笑。我这样分类和估计,肯定不是最优了,我只是懒得编优化程序了,就胡乱猜了三类。但是,可以很明显的从图中看出,即使是我瞎猜,用高斯混合模型也比简单的假设成绩服从正态分布要合理得多。打个比方,就算我胡乱找几个数字拿一次函数,二次函数,三次函数拟合数据,可能也比仅仅用直线拟合产生的误差要小。

顺便说一下,我算了K-S检验的P值,用GMM可以把这个值从提升到。由于时间的关系,样本的似然函数我没算。p值也能反映出得到这组数据的可能性,越大越好。

那么这三类学生占得比例和每类学生分布的参数怎么估计呢?还有,把学生分为几类更加合适呢?这两个问题似乎都没有简单的答案。我知道的有用EM算法做较大似然估计的,也有用蒙特卡洛方法做贝叶斯估计的,都是机器学习的内容。

因为毕竟是博文嘛,我没有解释太多的数学。我本周内会再写一篇博文把这个模型背后的数学尽量解释清楚,包括resampling,分类,优化,估计,KS检验。我厚颜无耻的推荐本科生朋友看我的下一篇博文,因为我刚才说的那些名词似乎都挺有用。

[1]  2012年北京市统考考生分数分布表

[2]  中国各省男女平均身高表

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值