本文基于MT5756 Data Analysis 复习笔记。禁止未经本人同意任何形式的转载,如有需要请联系422892137@qq.com
第一章 介绍
对统计学的理解:
相比传统数学观念,统计学包含了data management, display和summary的技巧。下为一现代对统计学的理解:statistics is the sicence of collecting, organisating, and interpreting numerical facts, which we call data", Moore and McCabe(2003).
统计学investigation一般步骤:
1. 清楚阐述待解决问题。目的是什么?
2. 收集/生产数据(以何种方式,需要多大的量)
3. 筛选、探索数据(对于不是本人收集的数据尤为重要)
4. 计算fomal statistical summeries并且进行检验
5. 探索之前分析中假设的敏感性(建模一定要有假设)
6. 交流汇总 (最困难,因为涉及到对非专业人士的讲解汇报)
第二章 采样 Sampling
* 什么是模型 Model呢?
outcome =(model) + error
= signal + noise
1. 一些术语 preliminary terminology
(1)sample unit: 采样个体
(2)target/population: 总体,即我们想调查的全部个体,例如,我们想知道全校女生的平均身高,那么全校女生的身高就组成了一个总体
(3)sampling protocol or design: 从总体中采样的程序
(4)sample: 被我们使用的总体的部分。例如上例,想要知道全校女生的身高是耗费巨大精力的,不必要的,所以我们抽取一部分女生的身高代表全校女生的身高,进行平均值的计算,从而估计全校女生身高。
(5)Census: 普查,即sample = population
(6)variable 变量:通常用小写罗马字母定义,用来表示个体的特性(如:身高、体重等)
(7)parameter 参数:对于总体的数值总结(nummeric summary),通常用希腊字母表示,例如平均值用μ表示
(8)estimate/statistic: 对于变量的数值总结(nummeric summary),通常用小写罗马数字表示
(9)bias (in an estimate): 有偏估计,系统误差,由于仪器、实验本身所依据的理论、公式的近似性、测量者的生理特点(如反应速度)等造成——摘自百度
(10)imprecision(in an estimate):不精确估计,偶然误差,由于偶然因素对测量本身引起。——应该也是摘自百度的

最低0.47元/天 解锁文章
2074





