数理统计学习小组
11月13日,本学期第一次“清新书院·数理统计学习小组”在清华大学新闻与传播学院(宏盟楼)环球资源厅顺利举行。新闻与传播学院2020级博士生王怡欢作为领学人,为在场的同学们介绍了数据的基本概念、抽样方法、数据可视化、数据度量等相关知识,带领在场同学们走进数理统计的世界。
不确定性的世界
课堂开始,王怡欢学姐指出,学习数理统计首先需要承认世界的不确定性,用信息思维来面对一个不确定性的世界,信息(或者数据)本质上是对不确定性的消除。她从主观和客观两方面具体分析不确定性产生的因素。
(不确定性思维导图)
随后,王怡欢学姐重点解释了数据、抽样、数据可视化、数据度量等相关概念,期望为同学们日后的学习打下理论基础。
走进数理统计
数理统计,是建立在概率论基础之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。我们需要培养数据思维,善于发现数据的关联性。
(数理统计思维导图)
数据:人类文明的重要基石
广义上的数据,是以适用于更好使用或处理的方式来表示或编码的信息或知识,它可以被测量、收集和报告及分析,能够使用图形或图像来显示。
数据可以通过调查、实验等直接方法获得,也可以使用二手资料,但在引用二手资料之前需要对数据进行评估,并且注明数据来源尊重他人劳动成果。
(数据思维导图)
抽样:数据获取的重要方式
在数据采集过程中,我们通过采用合适的抽样方法来抽选出一个好的样本。
抽样包括概率抽样和非概率抽样。其中概率抽样包括简单随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样;非概率抽样包括方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。
数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。
(抽样思维导图)
数据可视化
数据可视化的目的是要对数据进行可视化处理,以使得能够明确地、有效地传递信息。
王怡欢学姐详细介绍了针对不同类型的数据可以采取的可视化图表,并推荐同学们使用Pyecharts(https://github.com/pyecharts/pyecharts/)进行数据的可视化处理。
(数据可视化思维导图)
数据度量标准
王怡欢学姐介绍了针对数据集中趋势、离散趋势、相对位置、对称性和尖峰分布的描述及测度指标。
集中趋势度量的主要指标:众数、中位数、分位数、平均数。
离散趋势度量的主要指标:异众比率、四分位差、极差、方差、标准差。
相对位置度量的主要指标:标准分数。
数据对称性的测度:偏态。
数据尖峰的测度:峰态。
(数据度量标准思维导图)
在课程的最后,王怡欢学姐总结了本次课程学习中有关数理统计的几项基本概念,并详细解答了同学们提出的问题。