分布模型和线性回归——数据分析与R语言 Lecture 3
随机试验
三个条件
1 可以重复进行
2 不能预知结果
3 知道所有可能的情况
例子
1 投硬币,掷骰子
2 射击命中
3 身高、体重
样本空间
样本空间就是特定随机试验所有可能结果所组成的集合
例子
投硬币
掷骰子
身高体重
成绩
随机事件与必然事件
样本空间的子集称为随机事件
必然事件的例子
对立事件与互斥事件
概率——刻画随机事件出现可能性的指标
分布
R语言的各种分布函数
常见的数据描述性分析
多元数据的数据特征
协方差与相关系数计算
相关性检验
相关分析与回归分析
变量之间的关系
函数关系:有精确的数学表达式
相关关系:非确定性关系
平行关系:相关分析(一元,多元)
依存关系:回归分析(一元,多元)
相关分析的例子 (重要)
回归分析的例子 (重要)
自定义函数 lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n}
假设w=a+bh
则有
> b=lxy(h,w)/lxy(h,h)
> a=mean(w)-b*mean(h)
> a
[1] -140.3644
> b
[1] 1.15906
作回归直线
lines(h,a+b*h)
线性模型更加简单的方法
得到模型后进行检验
**
Pr 为P 值,数值越小,该模型内的参数越合理。
*** 里*越多越合理。
R 为相关系数平方,越接近1 越好。
**