数据分析统计基础篇

本文基于MT5756 Data Analysis 复习笔记。禁止未经本人同意任何形式的转载,如有需要请联系422892137@qq.com



第一章 介绍


对统计学的理解:


相比传统数学观念,统计学包含了data management, display和summary的技巧。下为一现代对统计学的理解:statistics is the sicence of collecting, organisating, and interpreting numerical facts, which we call data", Moore and McCabe(2003). 


统计学investigation一般步骤:


1. 清楚阐述待解决问题。目的是什么?

2. 收集/生产数据(以何种方式,需要多大的量)

3. 筛选、探索数据(对于不是本人收集的数据尤为重要)

4. 计算fomal statistical summeries并且进行检验

5. 探索之前分析中假设的敏感性(建模一定要有假设)

6. 交流汇总 (最困难,因为涉及到对非专业人士的讲解汇报)


第二章 采样 Sampling


* 什么是模型 Model呢?

outcome =(model) + error    

                 = signal + noise


1. 一些术语 preliminary terminology

(1)sample unit: 采样个体

(2)target/population: 总体,即我们想调查的全部个体,例如,我们想知道全校女生的平均身高,那么全校女生的身高就组成了一个总体

(3)sampling protocol or design: 从总体中采样的程序

(4)sample: 被我们使用的总体的部分。例如上例,想要知道全校女生的身高是耗费巨大精力的,不必要的,所以我们抽取一部分女生的身高代表全校女生的身高,进行平均值的计算,从而估计全校女生身高。

(5)Census: 普查,即sample = population

(6)variable 变量:通常用小写罗马字母定义,用来表示个体的特性(如:身高、体重等)

(7)parameter 参数:对于总体的数值总结(nummeric summary),通常用希腊字母表示,例如平均值用μ表示

(8)estimate/statistic: 对于变量的数值总结(nummeric summary),通常用小写罗马数字表示

(9)bias (in an estimate): 有偏估计,系统误差,由于仪器、实验本身所依据的理论、公式的近似性、测量者的生理特点(如反应速度)等造成——摘自百度

(10)imprecision(in an estimate):不精确估计,偶然误差,由于偶然因素对测量本身引起。——应该也是摘自百度的

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值