数据分析师之路-----------统计分析_cuicui

数据分析师之路-----------统计分析

关注

关注数：文章数：26 文章阅读量：82421 文章收藏量：222

作者: cuicui_ruirui

这个作者很懒，什么都没留下…

展开

数据分析-------统计学-------大样本占比假设检验

检验一个假设，假设超过30%的美国家庭拥有互联网接入，显著性水平5%，收集了150个家庭作为样本，结果57家拥有接入。零假设：美国家庭总体的互联网接入率≤30%备择假设：美国家庭总体的互联网接入率＞30%假设零假设是正确的，...

原创 2020-09-05 22:54:10 · 713 阅读 · 0 评论
数据分析---------统计学-----------小样本假设检验

例：根据新排放要求，引擎排放均值应低于20ppm。制造出10台引擎供测试使用，每一台的排放水平（单位是ppm）如下所示：15.6，16.2，22.5，20.5，16.4，19.4，16.6，17.9，12.7，13.9。（1）这些数据能否支撑该型引擎满足新标准的的结论？假设我们愿意冒0.01概率犯第一类错误。（2）求置信度为95%的置信区间（1）零假设：数据无法支撑，引擎排放均值=20备择假设：数据可以支撑，引擎排放均值<20假设零假设成立。样本的均值=15.6+16.2+

原创 2020-09-05 21:49:08 · 1531 阅读 · 1 评论
数据分析-------统计学-------假设检验和p值、单侧检验、双侧检验、z统计量、t统计量、第一类错误、第二类错误

具体可看https://zhuanlan.zhihu.com/p/86178674例：神经学家测试一种药物对反应时间的效果，分别对100只老鼠注射一单位剂量的药物，对其进行神经刺激，然后记录反应时间，已知没有注射药物的老鼠的平均反应时间是1.2秒，100只注射了药物的老鼠的平均反应时间是1.05秒，样本标准差是0.5秒，你认为该药物对反应时间有效果吗？需要建立两个假设。第一个假设是零假设，即药物对反应时间没有效果，即没有注释药物的老鼠的平均反应时间是1.2秒第二个假设是备择假设，即药物对..

原创 2020-09-04 22:30:44 · 3127 阅读 · 0 评论
数据分析------统计学----小样本容量置信区间例题

7个高血压患者服用新药3个月后，血压分别上升了1.5，2.9，0.9，3.9，3.2，2.1，1.9.要求计算所有病人血压上升值的期望在95%的置信区间。分析：这是一个生物过程，生物过程是正态分布的，也就是说总体的分布是一个正态分布。一般情况下，是依据样本的均值和标准差。用样本的标准差来估计总体标准差。但是对于这个例子来说样本容量n=7，太小。通常情况下，n≥30才算是好的估计，如果n<30就不是好的估计。若总体为未知的非正态分布时，只要样本容量 n足够大(通常要求n ≥30),样本均值仍会接

原创 2020-09-04 20:20:03 · 4403 阅读 · 0 评论
数据分析--------统计学-------置信区间例题2

总体有6250人，从中抽样250人，其中142人认为教室安装电脑有必要，108人认为没必要。（1）计算认为有必要的概率是99%的置信区间。（2）在保证概率是99%的前提下该如何缩小置信区间（1）分析：只有两种情况，一种是有必要，另一种是没必要。是伯努利分布。假设不必要是0，发生概率是1-p。必要是1，发生概率是p。按照上述公式计算样本均值和样本方差。样本均值=（0x108+1x142 ）/250=0.568样本方差（修正后）=（142x（1-0.568）²+108x（0-0.56

原创 2020-09-04 19:05:53 · 9851 阅读 · 0 评论
数据分析--------统计学-----------置信区间例题1

从农场的20万个苹果中抽样一次，抽取36个苹果作为样本，样本中苹果重量的均值是112克，标准差是40克。问20万个苹果的重量均值处在100到124克之间的概率。首先介绍样本均值的抽样分布（中心极限定理）设总体有N个元素，从中随机抽取一个容量为n的样本，计算出这个样本的均值。重复上述操作（假设100000次），每次得到的均值所形成的分布是样本均值的抽样分布。当总体服从正态分布时，样本均值一定服从正态分布，即有X~N( )时，若总体为未知的非正态分布时，只要样本容量 n足够大(通常要求n ≥30

原创 2020-09-03 23:31:57 · 4524 阅读 · 0 评论
概率论与数理统计-------参数估计-------区间估计------置信区间、枢轴变量

区间估计需要考虑到两点：①：区间长度 ②：以多大的概率落入区间两者相互矛盾，落入区间的概率越大，区间长度宽泛，区间长度越精确，落入该区间的概率越小枢轴变量一个正态总体的期望的区间估计构造枢轴变量依赖于正态总体下的抽样分布，抽样分布的计算方法情况一：例1：情况二：总体σ²未知，估计μ。此时σ不可用，可以考虑使用样本方差。此处构造枢轴变量为因为t分布是对称的，所以区间的范围如上样本方差S²的计算方法为注意：构造的...

原创 2020-08-29 19:43:18 · 4263 阅读 · 0 评论
概率论与数理统计--------点估计的优良性准则

无偏性指的是利用样本求出的参数的期望等于实际的参数则为无偏性质1：性质2：例1：有效性估计值的方差越小越有效例2：例3：由例2知，a1x1+……+anxn与x均值的期望都是u。x均值的方差是σ²/n。因为我们知道均值是u的无偏估计，那么a1x1+……+anxn的方差应该是大于x均值的方差的。即如下证明相和性（一致性）...

原创 2020-08-29 14:38:52 · 968 阅读 · 0 评论
概率论与数理统计----------参数估计---点估计法、极大似然估计法

参数估计参数空间：参数的取值范围点估计：估计到精确的数值区间估计：估计到一个区间，即一个范围点估计矩估计法：例1：都需要引入分布的期望和方差。参考分布的期望和方差例2：例3：例4：...

原创 2020-08-28 23:02:29 · 430 阅读 · 0 评论
概率论与数理统计--------正态总体下的抽样分布

正态总体下的抽样分布指的是总体是正态分布，从总体中抽出样本，构造统计量，研究统计量的分布一个正态总体s是样本方差1、抽出样本构造的统计量是均值，统计量的分布是正态分布。可以看出取均值之后，方差变小了，波动性变小，变稳定（因为是取了均值了，接近于期望，方差看的是变量与期望之间的距离，距离大方差大）2.3.4.5.是由1、2利用求t分布的公式得到的两个正态总体抽样得到的样本为样本的均值和方差如下：6.7.是由2利用F..

原创 2020-08-28 21:59:12 · 3545 阅读 · 0 评论
概率论与数理统计--------抽样分布

抽样分布抽样分布是统计量的分布。统计量是不含任何未知参数的样本构造的函数卡方分布例：t分布 F分布例1：性质：例2：

原创 2020-08-28 21:09:26 · 462 阅读 · 0 评论
概率论与数理统计--------总体与样本

总体与样本统计量样本均值与样本方差的性质性质（3）证明：

原创 2020-08-28 17:00:58 · 334 阅读 · 0 评论
概率论与数理统计---------中心极限定理

中心极限定理例1例2：二项分布可近似正态分布计算例：二项分布求确定的值的概率也可以用正态分布来计算。用正态分布计算的时候需要满足的条件是n大，np大。求二项分布可以近似于泊松分布也可以近似于正态分布，因为这两个分布都有表可查。用泊松分布计算需要满足的条件是n大，np适中（<=10）...

原创 2020-08-28 15:01:14 · 1024 阅读 · 0 评论
概率论与数理统计---------大数定律

大数定律大量重复实验的平均结果的稳定性（即期望的稳定性）切比雪夫不等式例1：例2：切比雪夫大数定律

原创 2020-08-27 22:40:20 · 466 阅读 · 0 评论
概率论与数理统计---------协方差、相关系数、原点矩、中心矩

协方差例2：协方差的性质：协方差会受到变量单位的影响（平方的时候、取变化范围的时候），需要对其标准化。相关系数（用来表示X,Y之间的线性关系）性质1.ρ的绝对值≤12.3.相关（线性相关）与独立（既没有线性相关也没有非线性相关）如果独立，则一定不相关，如果不相关，不一定独立中心矩与原点矩...

原创 2020-08-27 17:40:22 · 587 阅读 · 0 评论
概率论与数理统计---------期望、方差

离散型变量的数学期望连续型变量的数学期望一维随机变量函数的期望二维随机变量函数的期望

原创 2020-08-25 23:20:32 · 709 阅读 · 0 评论
概率论与数理统计-----------条件分布

条件分布离散型随机变量的条件分布连续型随机变量的条件分布随机变量的独立性二维离散型随机变量函数的分布二维连续型随机变量函数的分布例2例3

原创 2020-08-25 21:39:16 · 600 阅读 · 1 评论
概率论与数理统计--------------二维随机变量及其分布函数

以下均适用于离散型随机变量和连续型随机变量多维随机变量：身材（身高、体重），三维（胸围、腰围、臀围）二维随机变量：E是一个随机试验，Ω是该实验的样本空间，X,Y是同一个样本空间的样本变量。（X,Y）就是二维随机向量或二维随机变量二维随机变量的分布函数：（1）F(X,Y)=P{X<=x,Y<=y}。叫做联合分布函数（由X,Y共同控制），类似于在X=x,Y=y的两个平面上共同截一刀剩余的体积注意到红框部分是<而不是<=,就如同中一样必须是虚线而不能是实线，因为

原创 2020-08-24 13:02:44 · 6574 阅读 · 1 评论
概率论与数理统计---------分布函数

一、连续型随机变量与概率密度函数1、概率密度函数定义：非负可积函数f（x），f（x）>=0.a<=b,P{a<x<=b}=f(x)在(a,b)范围内的积分。其中x称作连续变量，f(x)称作概率分布密度函数。2、概率分布密度函数性质：①f(x)>=0 ②f(x)在-∞到+∞的积分=1 ③连续变量取个别值的概率为0④⑤概率为0的事件未必为不可能事件，概率为1的事件未必为必然事件...

原创 2020-08-18 10:27:41 · 25084 阅读 · 2 评论
数据分析--------统计学------概率分布、大数定律、中心极限定理

一、二项分布(离散型随机变量)二项分布的公式如下n是次数，x是成功的次数，p是成功的概率。二、期望值对于离散型随机变量。举例来说，总体为3，3，3，4，5.总体的均值为（3+3+3+4+5）/5=3.6也可以按照频率来计算。3出现的频率为3/5=60%，4和5出现的频率为1/5=20%。计算方式变为：3*60%+4*20%+5*20%=3.6.随机变量的期望值是总体的均值。对于总体数目无穷尽的离散型随机变量来说，无法将所有取值价值取平均，但是我们知道每个取值的..

原创 2020-08-11 23:32:07 · 764 阅读 · 0 评论
概率论与数理统计---------概率

一、概率的初等描述概率：可能性大小。P（A）性质： P（Ω）=1 P（）=0 0≤P（A）≤1二、古典概率模型（记数）条件：①：样本空间中有有限个样本点 ②：每一个样本点出现的概率等可能性公式：性质：①：非负性 0≤P（A）≤1 ②：规范性 P（Ω）=1 P（）=0 ③：有限可加 A1，A2,A3,··...

原创 2020-08-06 22:24:18 · 831 阅读 · 0 评论
数据分析-------统计学-----基本概念

一、样本和总体符号表示：μ代表总体均值x拔代表样本均值注意：均值不一定能很好地表示数据，虽然它是衡量数据集中趋势的一种方式，但并不能很好的表示所有数据。如下图所示，虽然两个总体的均值都是2.5，但是第一个总体的数据都是接近2.5，而第二个总体的数据却都是远离2.5的。为了解决上述问题，可以采用方差来描述。σ²代表方差 σ²=∑（x-均值）²/数据个数...

原创 2020-08-06 10:41:22 · 3785 阅读 · 0 评论
概率论与数理统计-----随机试验与随机事件、样本空间、事件集合表示

一、随机试验（用E表示）条件（1）在相同条件下可重复（2）结果不止一个（3）试验结果无法预测二、随机事件随机试验得到的结果（用A,B,C表示）（1）基本事件：相对于实验目的不必再分、不能再分的事件（掷色子朝上的点）（2）复合事件：由基本事件复合而成（掷色子点数大于5的点）Ω：全集，样本空间，必然事件。所有可能出现的事件（3）必然事件：每次试验必然发生的结果（4）不可能事件：一定不发生三、（1）样本空间：所有基本事件的集合（必然事件）Ω投硬币：Ω={正，反}

原创 2020-08-05 10:48:21 · 2234 阅读 · 0 评论
数据分析-----------统计学-----统计图

一、象形图用象形图像表示数据。下图中用一个血滴表示八个人。二、条形图三、线型图四、饼图五、误导人的线形图红色线的线形图表示美味可乐，蓝色线的线形图表示刺激可乐。这两个线型图误导人的地方有两个。第一：两个图的起始刻度不一样。第二：两个图的刻度间距不一样。这会使人们认为这两种可乐比起来是刺激可乐更受人欢迎，但实际上是美味可乐。正确的画法是将两种可乐放到同一个线形图中使用相同刻度。六、茎叶图七、箱线图...

原创 2020-08-05 09:32:08 · 1193 阅读 · 0 评论
数据分析---------统计学-------极差、中程数

一、极差（range）作用：该值越小，说明数字之间越紧密计算：最大数-最小数二、中程数（mid-range）计算：最大数和最小数的均值

原创 2020-08-05 08:50:43 · 1138 阅读 · 0 评论
数据分析-----统计学----均值、中位数、众数

一、均值（mean）作用：测量集中趋势/平均数计算：加和再平均二、中位数（median）作用：测量集中趋势的另一种方式计算：将所有数字按照从小到大或从大到小的方式排序，找出最中间的值，如果数字的个数为奇数，中间的值即为中位数，如果数字的个数为偶数，将处于中间的两个数值相加再取平均得到中位数。三、众数（mode）计算：数据集中出现频率最多的数字...

原创 2020-08-05 08:44:53 · 3291 阅读 · 0 评论

数据分析师之路-----------统计分析

作者: cuicui_ruirui

数据分析-------统计学-------大样本占比假设检验

数据分析---------统计学-----------小样本假设检验

数据分析-------统计学-------假设检验和p值、单侧检验、双侧检验、z统计量、t统计量、第一类错误、第二类错误

数据分析------统计学----小样本容量置信区间例题

数据分析--------统计学-------置信区间例题2

数据分析--------统计学-----------置信区间例题1

概率论与数理统计-------参数估计-------区间估计------置信区间、枢轴变量

概率论与数理统计--------点估计的优良性准则

概率论与数理统计----------参数估计---点估计法、极大似然估计法

概率论与数理统计--------正态总体下的抽样分布

概率论与数理统计--------抽样分布

概率论与数理统计--------总体与样本

概率论与数理统计---------中心极限定理

概率论与数理统计---------大数定律

概率论与数理统计---------协方差、相关系数、原点矩、中心矩

概率论与数理统计---------期望、方差

概率论与数理统计-----------条件分布

概率论与数理统计--------------二维随机变量及其分布函数

概率论与数理统计---------分布函数

数据分析--------统计学------概率分布、大数定律、中心极限定理

概率论与数理统计---------概率

数据分析-------统计学-----基本概念

概率论与数理统计-----随机试验与随机事件、样本空间、事件集合表示

数据分析-----------统计学-----统计图

数据分析---------统计学-------极差、中程数

数据分析-----统计学----均值、中位数、众数