统计学学习笔记（七）—— 回到现实：得不到数据的整体怎么办？

本文链接：https://blog.csdn.net/eengel/article/details/7074388

在医学统计学中，由于难以获取全部数据，抽样研究成为重要方法。抽样误差和系统误差是需要考虑的因素，样本均值的标准误表示样本均值与总体均值的变异情况。当总体呈正态分布或样本量大时，样本均值会以总体均值为中心呈正态分布。标准误与总体标准差和样本含量有关，用于均值差异的统计学检验。

摘要由CSDN通过智能技术生成

又有这么久没更新了，加油加油。

（以下讨论基于《医用统计方法》的相关章节，就不一一标明了。）

在上面的所有讨论中，我们都假设拿到的数据集是一个整体。但在医学统计学中，用某个数据的全集来做分析和研究是不现实的。一方面，很难得到全部数据;另一方面，医学领域的数据集全集往往数量非常庞大，很难直接用统计学工具计算出来。比如要研究某市所有60岁以上得糖尿病的老年人的某项治疗情况，就是一个非常大且不太可能完全得到的数字。

还好有聪明人发明了“抽样研究”的方法。就是从总体中随机抽取出样本来进行研究，继而推论总体的方法。

实际经验告诉我们，只要在抽样的时候能够尽量避免“系统误差（Systematic Error，由于实验者的技术错误、测量仪器不准确或标准试剂没有校准等原因造成一些带有一定倾向的偏差）”，抽样这个方法还是值得采纳的。但还必须考虑抽样误差（Sampling Error），也就是由于抽样而引起的样本统计量与总体参数间的差异。抽样误差这个东西在抽样过程中肯定存在。理想情况下，只要样本是随机抽取的，抽样误差是随机的，就可以用统计方法来计算/估计其大小，并通过样本来推测总体，并进行各种统计指标的差别有无统计学意义的检验。样本的随机抽取需要试验者进行控制，在假设其随机的条件下，相应的统计学方法就可以用来计算抽样误差的大小。