一. 观察性研究与实验研究
观察性研究存在的问题是:
- 单纯通过观察性研究得到因果关系是不可能的,必然存在观察不到的因素对因变量的影响,忘记测量某个因素
- 实验研究可以得到比较严谨的因果关系的证明
二. 描述统计
1 概念量化问题
- 需要为抽象概念开发测量方法,如幸福感等。目前通过将大概念细分为小概念,分为多个维度进行测量
- 通过信效度进行对概念测量准确性的衡量
2 变量类型
- 统计方法的核心就是在解释异质性,通过收集数据、构建模型,努力寻找与异质性相关的因素
3数据描述统计方法
-
制表法:频数分布表-对于等距和等比变量可以将数据划分为多个区间,然后进行统计(注意不重不漏,即使某区间没有数据也需要写出)
-
绘图法—分类变量用柱状图即可,定量变量主要关注集中趋势、离散程度、形状(对称、左偏、右偏-看长尾在哪里就是什么偏分布)、特殊的cluster/group、outliers–定量变量主要也是用分区间统计的直方图进行汇报
-
数值法—分散趋势(极差、四分位差-四分之一位与四分之三位的差值、标准差standard deviation)、位置的测量(四分位数、百分位数、z-score)
-
Notice:
左偏下的特征大小比较:左偏分布下均值<中位数<众数
右偏下的特征大小比较:众数<中位数<均值
箱线图含义:如果观测值落在上四分位数上方1.5倍 IQR 或落在下四分位数下方1.5倍的 IQR,则该观测值为异常值。
离散变量任何两个值之间只有有限数量的值。连续变量任何两个值之间有无限数量的值。
三、探索性数据分析
1 EDA
参考书籍:
2 EDA绘图
原则:
- 体现因果,用绘图比较
- 展现多元世界,影响世界的因素有很多
- 整合证据
3 R学习资源
4 R基础知识
- 大型计算器:幂函数-^ 2^3=8; e–exp;
- 赋值: T, F, diff,df已被占用;<-赋值快捷键是 option加短横线
- 向量运算:c函数-c(数值,数值);均值mean,标准差sd-默认为样本标准差;开根号 square root-sqrt
- 简单作图
- 基本描述性统计
四 概率分布
样本均值的均值趋向于总体均值
样本均值的标准误趋向于总体标准差/根号n
五 统计推断
六 区间估计
总体比例区间估计
总体均值区间估计
七 统计推断-显著性检验
显著性检验即假设检验,包含5个部分
-1 前提假定 assumption
- 2 理论假设
研究假设是从理论中来的 - 3 检验统计量
- 4 P值
- 5 结论
十、简单线性回归
十二
参考书:
1 mathematical statistics with application----介绍性统计学教材
2 statistical inference
3 statistical methods for the social sciences