统计学基础

#可汗学院,统计
##统计两大类,描述性,推测性
样本(X和S)->估计总体(u和o)->(根据中心极限定理)样本均值分布(置信区间)
总体 ->  chi square 分布
总体推测样本(密度函数)(自己总结)
(img)
The standard deviation of the sampling distribution of the means
= the population standard deviation divided by the square root of the
Number of samples we have when we calculate each of those means
##描述性:central tendency and dis… tendency
###central tendency (集中趋势)
平均数(Average)
mean    平均数(算术平均数 + 几何平均数)
median 中数
mode.   众数
###分离趋势
Variance 方差. -> 计算公式 ->简化:诸方差公式
->标准差(方差开方)standard deviation
###关键字
Sample 样本;        population 总体
Mean.        大写X上有一横        u 的变体 
Variant     大写S的平方              o 的变体的平方
##图形
象形图
条形图
线形图
饼图
茎叶图
箱线图
散点图
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。
##随机变量
random variables其实是一个函数,
Maps you form the world of random processes to an actual number
分为离散discrete和连续continuous两种。
##概率密度函数
 连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。
##二项式分布,柏松分布,正态分布
伯努利事件 (二选一)
二项式分布
柏松分布
正态分布->经验法则->z 分数
##数学期望
(或均值,亦简称期望)是试验中每次可能结果的_概率(非频率)_乘以其结果的总和。
 E(X) -> 随机变量X的期望
##大数定律,中心极限定理
大数定律:随机现象平均结构稳定性
中心极限:sampling distribution of the sample mean 趋向于正态分布
 样本(n>1)特征(取多个样本的样本特征m->∞)的分布趋向于正态
n越大,标准差越小
sampling distribution of the sample mean  「它的标准差又被叫做 standard error of the mean」的方差等于,原样本方差除以n。
例子:一个男性每天喝水平均2L,方差0.7L,求50人,你带了110L水,不够的概率是?
无限总体,样本均值的方差为总体方差的1/n。(img)
有限总体,样本均值的方差为。(img)
 ##置信区间
例子:你有36个样本苹果,你的果园有200,000个苹果。你的样本平均重量112 grams(标识差40 grams)。求你果园所有苹果平均重量在100到124间的概率。
可汗学院第40课


 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。
##伯努利分布的期望和方差
二选一,对或错
设 x=1 为对 x=0为 错 (随机变量量化,选1的概率为p)
则:
期望 = p 
方差=p*(1-p)*
##误差范围 43
根据中心极限定理
1. 样本mean 大约 估计等于 总体mean estimate
2. 总体标准差  估计等于 样本标准差 estimate
3. Sampling distribution of sample mean 的标准差 = 总体标准差/n 
4. 推算出Sampling distribution of sample mean 的概率(不叫概率,叫置信区间,因为非概率,2 3都是大概相等)
【下限 - > 上限】 区间 interval
  95%    置信 confidence
描述:我们有个95%的置信区间,为下限制到上限
 6. 误差范围:
人们将95%当作100%,那么总体的一个标准差,就被叫做总体mean的误差范围。
7. **大概** 95% 的**概率**, 某值 在 样本均值 - 总标准差  到 样本均值 + 总标准差 间。
## t 分布


###小样本容量时估计置信空间的办法
1. Fatter tails
依然是从样本的u和方差,算u和方差。但是,样本小,当作t分布。
(img)
##零假设,备择假设【H1】(假设检验和p值(假设成真,则出现样本的情况为p))
0. 样本-> 给出样本u和o -> 估计总体u和o -> 绘制sample distribution of sample mean正态或者t分布{ 沿均值对称 }
1. 假设零假设(对某个样本集的假设)正确-> 在上面的情况下,计算假设的均值位置和样本的位置相差几个标准差
2. 查z或t(有个自由度参数,样本size-1)表,获取概率。
3. 太远,则为假 ,p 很小


   0. 零假设(对总体的假设)给出u,o
1. 计算样本均值的密度函数
2. 看看样本在这个函数中发生的概率
##双侧检验,单侧检验
单侧检验的p更加极端
##z和t
##Type One Error
拒绝了零假设,即使他是真的。「第一类错误」
也就是说,有p的概率犯第一类错误。
##随机变量差的方差
A B相互独立,
A + B和A - B的方差等于 A方差 + B方差
A + B和A - B的方差 A ,B均值的+ -
(img) (img) (img)
##均值之差的置信空间
均值之差分布的均值  =均值A的分布的均值 - 均值B的分布的均值 = 均值A - 均值B。
回答问题:在95%的置信空间里,A方法是否比B方法更好
##线性回归(regression)中的平均误差


(img)(img)
决定系数 Coefficient of determination,
说的是,y在多大程度上被x影响
(img)(img)
##协方差和回归线
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
(img)
##chi square (x(像x)的平方)distribution ,又叫卡方检验
百度介绍
(img)
Use it to test how well theoretical distributions explain
Observed ones ,or ,how good a fit observed results are
For theoretical distributions.
Measuring essentially error from an expected value
(img)
The distribution for this random variable right here(Q)
Is  going to be an example of the chi-squared distribution.
两个自由度
(img)
密度图:
(img)
##皮尔逊x2检验
(img)
  将 (A- 期望值)平方/期望值  近似等于 正态分布的样本值的平方
##列联表(contingency table)x2检验
(img)
##方差分析和F统计量假设检验
总平方和
组内平方和
F统计量
##相关性(correlation)和因果性(causality)
##归纳推理(Inductive)和演绎推理(deductive)
Inductive reasoning and deductive reasoning
公式推导:deductive
前天,昨天,今天,明天可能:Inductive
##补:
1. 分位数:
若某个值xp被称为x的p分位数,则随机变量x取值小于xp的概率为p
2. Probability mass function 和 probability density function
概率质量函数(离散)和概率密度函数(连续)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值