1. 为了衡量某一调查的结果,我们必须知道:
样本是否是数据合适的统计样本(能否代表总体)
响应率
提问时的措辞
调查中问题的位置
调查者是谁
2. 抽样误差:指由于抽样的随机性引起的样本结果与总体真值之间的误差
3. 未响应误差:由于匆忙和沉默而造成的误差(因为联系不到或没有耐心等原因无法得到调查结果,但无法联系到等原因本身可能就说明问题,比如比较忙的人和比较闲的人对待事物的观点是不同的)
4. 响应误差:被调查者的回答可能受到很多事物的影响,而未必代表其真实所想所做(问题措辞、备选答案干扰、问题在问卷中位置、调查者。。)
5. Hawthorne效应:被研究者 对研究者产生注意,而不是对预想中的控制产生反应的现象
6. x分位数:使得x%的观测值小于这个值
7.极差:最大最小值之差;四分位极差:去掉最大最小各25%后最值之差
8. 主管概率:一次性事件的概率,bayes统计推断的基础
9. 赔率:某事物发生两种相反情况的可能性为:p(s1):p(s2) = x:y。如果认同s1,且最后结果如此,那么最后会拿回最初付款n的(1+y/x)倍,即按比例返回原款和s2部分的钱
10. 二项分分布:对于每次实验只有两种结果的事件进行多次独立重复实验,对某一结果出现次数的概率统计,一般用于处理较简单的样本。较复杂的用二项分布的正态近似处理
11. 泊松分布:由二项分布推导出来,事件结果出现次数无上限,针对于小概率事件
12. 自由度:样本个数-限制条件个数。比如求样本均值时,每个样本都是独立的话,那自由度就为样本个数n;但是在求方差的无偏估计s^2时,由于均值(的无偏估计)是确定的,当知道n-1个样本的值时,剩余的值就确定了,这样自由度就是n-1,这也就是为什么在求s^2时分母是n-1
13. t分布:曲线和标准正态分布差不多,但是离散程度比其大,且和自由度有关。自由度越高的t分布离散程度越小、越接近正态分布。当自由度为50时和标准正态分布几乎一样,因此t分布一般在自由度100以内。研究时数据应符合正态分布。
14. x^2分布:无负值、和自由度有关、均值等于自由度。研究时数据应符合正态分布。
15. F分布: 无负值、和自由度有关(有2个)。研究时数据应符合正态分布。
16. p值:在某些假设下,观察到极端值的概率
读后感:以上是前5章内的一些概念。总体上偏简单。文章内很少出现公式,这点比较对我的胃口。不是我不想记公式,概统的东西大学和考研的时候都学过,可都是在记公式,完全不知公式的来龙去脉、实际用途和含义。但是比较失望的是,第五章我感兴趣的分布部分,基本就是大概提下概念,对于分布的实际含义和用途基本没有将。我比较想知道为什么现实中会有这些分布、在什么情况下会出现什么分布、实际用途等。也许以后会讲、也许根本不需要知道吧。继续看。