统计数据分析:基础与实践
1. 统计数据分析概述
统计数据分析旨在从部分且不确定的观测中理解复杂的现实世界现象。由于数据存在不确定性,我们对现象的认知也存在不确定性,该理论的一个主要目标就是量化这种不确定性。
在进行统计数据分析时,要区分其背后的数学理论和分析后做出的决策。数学理论是严谨的,数学家构建了精确的数学框架来处理不确定性,但统计分析转化为实际人类决策的过程存在主观因素。在决策过程中,理解统计结果背后的风险和不确定性至关重要。
1.1 相关术语
在深入学习具体方法之前,我们需要了解一些术语,这些术语有助于我们从多个维度对统计技术进行分类。
- 探索、推断、决策和预测
- 探索性方法 :通过基本统计汇总和交互式可视化对数据集进行初步了解。例如使用 pandas 和 matplotlib 探索数据集。
- 统计推断 :通过部分和不确定的观测获取关于未知过程的信息,包括估计描述该过程的数学变量的近似值。如使用最大似然法拟合概率分布、使用核密度估计非参数地估计概率分布、使用马尔可夫链蒙特卡罗方法从后验分布中采样来拟合贝叶斯模型。
- 决策理论 :从随机观测中对未知过程做出决策,并控制风险。例如使用简单的z - 检验进行统计假设检验、使用列联表和卡方检验估计两个变量之间的相关性。
- 预测 :从数据中学习,根据有限的观测预测随机过程的结果,这是机器学习的主题。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



