深圳大学2022应统复试资料(专业课137分)

概率论

概率(probability)与统计(statistics)的区别
  • 概率:数学分支,统计推断的基础,在给定数据生成过程下观测、研究数据的性质(推理)

  • 统计:统计推断则根据观测的数据,反向思考其数据生成过程。 预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究(归纳)

1、统计是在已知数据的前提下,进行模型的归纳与推断。
从深度学习角度理解:统计实际上就是模型的训练阶段,已知训练数据和对应标签,对训练数据进行学习,最小化损失函数,最后得到模型。
2、概率是在已知模型的基础上,对其他样本数据进行预测,预测这个模型产生的结果(方差、均值等)。
从深度学习角度理解:概率实际上就是模型的推理阶段,已知训练好的模型,对未知样本进行预测,得到最终的预测结果。
总结:统计和概率研究的问题恰好相反

概率的定义和性质(Definition and nature)
  • 古典定义(Classical definition):基本事件(elementary/fundamental event)有限,各基本事件发生的可能性相同。P(A)=A包含的基本事件/基本事件总数
  • 统计定义:重复试验的次数足够多,频率可以作为概率P(A)的概率值
  • 性质
    ①非负性(Non-negative):对于任意事件A,有0≤P(A)≤1
    ②规范性(normative):必然事件的概率为1,不可能事件的概率为0
    ③可列可加性(Column additivity):对于任意有限个或可数个事件,若它们两两互不相容,则它们和的概率等于概率的和

确定概率的方法
  • 频率方法(Frequency method) 在大量重复实验中,用频率的稳定值去获得概率(大数定律)。eg:抛硬币试验
  • 古典方法(Classical method) 涉及的随机现象只有有限个样本点,每个样本点发生的可能性相等,若A含有k个样本点,则P(A)=k/n。eg:抛一枚均匀的骰子,出现各点的可能性相等
  • ==几何方法(Geometric method)==对样本空间和所求事件A用图形描述清楚,计算相关图形的面积或体积进行比较得出概率。eg:蒲丰投针
  • ==主观方法(Subjective method)==人们根据经验对该事件发生的等可能性所给出的个人信念。eg:教师根据经验和对学生的学习情况认为某个学生能考上大学的可能性为95%
概率密度(Probability density)与分布函数(Distribution function)的区别
  • 概念不同
    概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小;
    分布函数是概率统计中的重要的函数,通过它可以用数学分析的方法来研究随机变量,可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征
  • 描述对象不同
    概率密度针对连续性随机变量(Continuous random variables)
    分布函数包括连续性和离散型(Discrete random variables)
  • 求解方式不同
    已知连续型随机变量的密度函数,可以通过讨论及定积分的计算求出其分布函数;
    已知连续型随机变量的分布函数,对其求导可以得到密度函数;
    对离散型随机变量,已知其概率分布(分布列),可以求出其分布函数,知道其分布函数也可求出概率分布
经典统计(Classical statistics)和贝叶斯统计(Bayesian estimation)的差别与联系

统计推断:频率学派、贝叶斯学派

  • 经典统计: 又叫频率学派,所研究的对象是能大量重复的随机试验
  • 贝叶斯学派

一个事件的概率是人们根据经验对该事物发生可能性所给出的个人信念,这种概率叫做主观概率,主观概率反映了人们对某种随机现象的认识
任一未知量 θ \theta θ都可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布;在获得样本后,总体分布、样本分布、先验分布通过贝叶斯公式结合起来得到一个关于未知量 θ \theta θ的新分布——后验分布;任何关于 θ \theta θ的统计推断都应该基于 θ \theta θ的后验分布进行

【基本思路】假定要估计的模型参数是服从一定分布的随机变量,根据经验给出待估参数的先验分布,关于这些先验分布的信息被称为先验信息,然后将这些先验信息与样本信息相结合,应用贝叶斯定理,求出待估参数的后验分布,再应用损失函数,得出后验分布的一些特征值,并把他们作为待估参数的估计量
差别
①关于参数的解释不同
经典统计把看成θ一个常数,对某种现象进行统计推断;
贝叶斯把参数看成随机变量来进行统计推断,可用一个分布来描述θ的未知状况,这个分布称为先验分布。
️②所利用信息不同
经典统计:总体信息和样本信息
贝叶斯统计:总体信息和样本信息+先验信息
③对主观概率的认同不同
经典统计的概率是在大量重复试验中获得的概率。
Bayes 允许利用主观概率
④对样本的认识不同
经典统计学把样本看做是来自总体分布的信息,研究的是总体,不局限数据本身
bayes 是重视样本观测值,通过样本观测值设出先验分布,得到后验分布。
联系:争论焦点——如何利用各种先验信息合理地确定先验分布

两个条件分布(Conditional distribution)相加等不等于1
  • 条件分布分为离散型条件分布,以及连续性条件分布,当两种条件分布类型相同并且两个事件为同一发生条件下的互斥条件时才会等于一,当两个条件分布类型不同时,不能进行相加进而不能等于一。
随机变量(random variable)(用符号定义具体的内容)

定义在样本空间的实值函数/是表示随机试验各种结果的实值单值函数,也就是从样本空间映射到实数的函数

  • 离散型随机变量—-仅可能取有限个或可列个值,如企业数、产品数量
  • 连续型随机变量—-随机变量的可能取值充满数轴上的一个区间,如身高、温度
  • 如掷一颗骰子,可能出现1-6点,若设置x=“掷一颗筛子所出现的点数”,则123456就是随机变量x的可能取值,“x=3”就表示事件“出现3点”。 若设置x=“掷一颗筛子6点出现的次数”,则0和1就是随机变量x的可能取值,“x=0”表示事件“没有出现6点”

随机变量序列(A sequence of random variables)以哪几种方式收敛(convergence)
  • 依分布收敛(Convergence in distribution)(中心极限定理)(弱收敛)
    1)讨论的是一个分布函数序列{Fn(X)}收敛到一个极限分布函数F(X),依分布收敛是一种弱收敛,因为它在有间断点时并不能满足点点收敛。
    2)定义:设随机变量x,x1…xn的分布函数分别为F(X),F1(X)…Fn(X),若对F(X)的任一连续点x,都有Fn(X)当n趋于无穷的极限为F(X),则称Fn(X)弱收敛于F(X),也称Xn按分布收敛于X。

  • 依概率收敛(convergence in probability)(大数定律)【求概率的极限】
    1)说明的是在什么条件和意义下随机变量序列可以收敛于一个随机变量
    2)定义:设{Xn}为一随机变量序列,X为一随机变量,当n趋于∞时,如果对于任意的e>0,有p(|Xn-X|>e)趋于0,则称随机序列{Xn}依概率收敛于随机变量X。其含义是Xn对于X的绝对偏差不小于任意给定量的可能性将随着n的增大而越来越小。

  • 几乎处处收敛(Convergence almost everywhere)(强收敛)【求极限的概率】
    即表示存在一个零概率集,除了这个概率集,其它地方处处收敛。

  • R阶矩收敛

  • 几乎一致收敛


特征函数(characteristic function)

概率密度函数**(probability density function)**的连续傅里叶变换的共轭复数
是随机变量X的分布的另一种描述形式,包含了分布函数的所有矩,也就是分布函数的所有特征
各阶矩相等—>各个特征相等—>分布相同

  • 它是处理许多概率论问题的有力工具:
    ②还能把求分布的各阶原点矩转化成微分运算
    ③能把寻求随机变量序列的极限分布转化成一般的函数极限问题
  • 优点:
    任意分布与它的特征函数一一对应
    两个独立随机变量之和的特征函数就是它们二者特征函数的积
    不知分布函数,已知期望、方差、偏度、峰度等特征,可以用特征函数去代替分布函数
分位数与数字特征(Quantiles and numeric features)
  • 分位数
    • 定义:设连续型随机变量X的分布函数为F(x),密度函数为p(x),对任意p∈(0,1),称满足条件F(x_p)=p的x_p为此分布的p分位数,又称下侧p分位数。
    • 分位数和均值一样是反映随机变量位置的特征数,有下侧分位数和上侧分位数,下侧分位数是把密度函数下的面积分为两块,左侧面积恰好为p,上侧分位数是右侧面积为p,分位数和上侧分位数是可以相互转化的,中位数是特殊的分位数。
    • 偏度系数(Skewness coefficient)是描述分布偏离对称性程度的一个特征数,当偏度系数大于0称为正偏或右偏,当偏度系数小于0称为负偏或左偏。
    • 峰度系数(Kurtosis coefficient)是描述分布尖削程度和尾部粗细程度的一个特征数。偏度和峰度都是描述分布形状的特征数。
  • 数字特征
    • 定义:数字特征是指能够描述随机变量某些方面性质特征的量。包括期望、方差、标准差、k阶矩、变异系数、分位数、偏度系数和峰度系数。这些特征数各从一个侧面描述分布的特征。
    • 随机变量的数学期望(mathematical expectation)是分布的位置特征数,他刻画了随机变量X的取值总在期望附近波动
    • 方差(variance)和标准差(standard deviation)反映了随机变量取值的波动大小,反映了随机变量取值的集中与分散,方差与标准差越大,变量取值越分散,方差与标准差越小,变量取值越集中。
    • k阶矩包括k阶原点矩和k阶中心矩,一阶原点矩就是数学期望,二阶中心矩就是方差。
    • 方差与标准差反映了随机变量取值的波动程度,但在比较两个随机变量的波动程度时采用方差与标准差比较不合理
      ①随机变量取值有量纲(dimension),不同量纲的随机变量用方差去比较它们的波动大小不合理
      ②在取值量纲相同的情况下,取值的大小也会影响方差和标准差。
      变异系数(coefficient of variation)是以数学期望为单位去度量随机变量取值波动程度的特征数,标准差与数学期望量纲是一致的,所以变异系数是一个无量纲的量。
联合分布(Joint distribution)推边缘分布(Marginal distribution)
  • 已知变量的联合分布函数(joint distribution function)推边缘分布函数(marginal distribution function)
    如果已知二维随机变量(bivariate random variable)(x,y)的联合分布函数F(x,y),如果要求分量X的边缘分布,则令另外一个分量Y在联合分布函数中取值为无穷,由于y<∞为必然事件,故可得分量X的边缘分布。同理,求分量Y的边缘分布,则令另外一个分量X在联合分布函数中取值为无穷。
  • 离散型变量的联合分布列(joint distribution law)推边缘分布列(marginal distribution law)
    如果已知二维离散随机变量(x,y)的联合分布列
    p(X=xi,Y=yj),如果要求分量X的边缘分布列,则对j求和可得X的边缘分布列。同理如果要求分量Y的边缘分布列,则对i求和可得Y的边缘分布列。
  • 连续型随机变量的联合密度函数推边缘密度函数
    如果已知二维连续型随机变量(x,y)的联合密度函数,如果要求分量x的边缘密度函数,则令联合密度函数在负无穷到正无穷上对y进行积分,如果要求分量y的边缘密度函数,则令联合密度函数在负无穷到正无穷上对x进行积分。
独立与互斥(不相容)(mutually exclusive)的关系?事件的独立性是否有传递性(Transitivity)?
  • 独立性:一个时间的发生不影响另一个事件的发生(pair wise independence 两两相互独立)

  • 互斥:事件a和事件b不可能同时发生

  • 关系:a,b互斥,—>a,b不可能独立(因为a发生了b就不可能发生,而独立要求b是否发生不能受a的影响【对立 Conplementation—>互不相容,反之不对】

  • 事件的独立性不存在传递性。反例:独立地抛掷一枚硬币和一个骰子,a=出现正面 b=掷出第6点 c=出现反面——-事件a与事件b独立,b与c独立,a与c不独立


各大分布及其关系
  • 0-1分布(two-point distribution)

  • 二项分布(binomial distribution)

  • 超几何分布(hyper geometric distribution)

  • 几何分布

  • 泊松分布(Poisson distribution)

  • 负二项分布

  • 贝塔分布、伽马分布

  • 指数分布(Exponential distribution)

  • 标准正态分布(standard normal distribution)

  • 均匀分布(uniform distribution)

  • 柯西分布(Cauchy distribution)

统计量(Statistics)、为什么要引进统计量、统计量中为什么不包含任何未知参数(Unknown parameter)
  • 从总体(population)中抽取样本,由样本构造的一个不含有未知参数的函数就叫统计量
  • 当从总体中抽取样本后不能直接用它去对总体的有关性质和特征进行推断,因为样本仍然比较分散,必须把分散在样本中的信息集中起来,针对不同的研究目的,构造不同的样本函数
  • 由样本构造的具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数
充分统计量(Sufficient statistics)
  • 对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量。
  • 对于未知参数的估计问题,保留了原始样本中关于未知参数θ的全部信息的统计量,就是充分统计量。如样本均值X是总体数学期望的充分统计量
  • 求法:
    1.定义法
    2.因子分解定理:如果总体密度函数可以表示为g(T,θ)h(x)的形式,其中g(T,θ)是关于统计量T和未知参数θ的函数,h(x)是关于样本的函数,那么就称T为充分统计量
次序统计量(Order statistics)
  • 将样本观测值从大到小排列后得到的值就是次序统计量
  • 条件分布与总体分布无关,次序统计量就是充分统计量

正态分布(normal distribution)曲线的性质
  • 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
  • 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
  • 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
  • 曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1
抽样分布(Sampling distribution)(三大分布及其应用场合)

抽样分布:从总体中抽取样本构造统计量【独立同分布】【正态总体】
应用:
①求统计量的精确分布对于数理统计中的所谓小样本问题的研究是非常有用的
②求样本量趋于无穷的统计量的极限分布对于数理统计中的大样本问题的研究有重要作用

  • 卡方分布(Chi-square distribution):n个独立同分布的标准正态分布的平方和服从自由度(degrees or freedom)为n的卡方分布

特点:是一个以自由度为参数的分布族,自由度决定了分布的形状;非对称分布,自由度n相当大时,卡方分布接近于正态分布;变量值始终为正
应用:可以用来构造t分布和f分布,可以用来构造非参数检验中卡方拟合优度的检验统计量(Test statistic),该检验统计量常用于列联分析

  • t分布:随机变量X服从标准正态分布,Y服从自由度为n的卡方分布,且X与Y独立,那么X/ Y / n \sqrt{Y/n} Y/n 服从自由度为n的t分布

特点:n≥30时,t分布与标准正态分布非常接近;对于小样本理论和应用有重要的作用
应用:在单样本、双样本均值假设检验和线性回归方程中回归系数的显著性检验(Significance test for regression analysis)中,常用t分布来构造检验统计量

  • F分布:随机变量Y和Z分别服从自由度为m和n的卡方分布并且相互独立,则 Y / m Z / n \frac{Y/m}{Z/n} Z/nY/m服从第一自由度为m,第二自由度为n的F分布
  • 特点:t^2为F分布

应用:比较两个总体方差的假设检验中作为统计量、且f分布常被用于构造检验统计量以应用于线性回归方程的整体显著性检验(An overall significance test for the regression equation)与方差分析中

中心极限定理(定义、意义、应用)(The central limit theorem)

中心极限定理就是在什么条件下,独立随机变量和的分布函数会收敛于正态分布。
包括独列维林德伯格中心极限定律、棣莫弗-拉普拉斯中心极限定律、林德伯格中心极限定律、李雅普诺夫中心极限定律。
列维林德伯格中心极限定律要求随机变量序列独立同分布,且数学期望和方差存在
利莫夫拉普拉斯中心极限定律要求随机变量序列独立同分布于二项分布
林德伯格中心极限定律和李雅普诺夫中心极限定律针对于独立不同分布

  • 定义:从任意一个均值为μ、方差为 σ 2 \sigma^2 σ2的有限总体中随机抽取一个样本容量为n的样本,当样本量n足够大时,样本均值近似服从N(μ, σ 2 \sigma^2 σ2/n)
  • 意义:定理表明,只要样本容量足够大,那么未知总体的样本特征值就近似服从正态分布。只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于统计学,开辟了统计学的方法领域
  • 应用:用样本估计总体,也是区间估计和假设检验的基础

样本均值与总体分布(Overall distribution)之间的关系
  • 关系
    ①根据中心极限定理,在样本量足够大的情况下,不管总体分布是什么,样本均值都会近似的服从正态分布
    ②总体是正态分布,无论样本量的大小,样本均值也服从正态分布
    ③样本均值的期望和方差不受总体分布的影响。一个期望为μ,方差为 σ 2 \sigma^2 σ2的总体,从其中抽取一个容量为n的样本,样本均值的期望为μ,方差为 σ 2 \sigma^2 σ2/n
  • 应用:利用样本均值的分布可推测总体的分布,构造总体均值的置信区间,对总体的参数进行假设检验

大数定律(The law of large numbers)(定义、种类、应用、证明过程)
  • 定义:大量重复试验的平均结果的稳定性,在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律(大数定律讨论的是在什么条件下,随机变量序列的算术平均依概率收敛到其均值的算术平均。)

根据随机变量序列在什么条件下服从大数定律可以分为伯努利大数定律、切比雪夫大数定律、马尔科夫大数定律、以及辛钦大数定律

  • 伯努利大数定律(Bernouli large numbers law):

伯努利大数定律说明随着n的增大,事件a发生的频率与其概率p的恶偏差大于预先给定的精度E的可能性愈来愈小,要多小有多小,这就是频率稳定于概率的含义

  • 切比雪夫大数定律(Chebyshev large numbers law):设{Xn}为一列两两不相关的随机变量序列,若每个xi的方差存在且有共同的上界,则{Xn}服从大数定律
    切比雪夫不等式只要求{Xn}互不相关,不要求同分布,所以容易推出—>若{Xn}是独立同分布的随机变量序列且方差有限,则{xn}必定服从大数定律【伯努利大数定律是切比雪夫大数定律的特例】
  • 马尔可夫大数定律(Markov large numbers law):

要求随机变量序列满足一个随机变量序列和的算数平均的方差趋于0

马尔可夫大数定律对{Xn}没有任何同分布、独立性、不相关的假定,切比雪夫大数定律可由马尔可夫大数定律推出,马尔可夫大数定律可用切比雪夫不等式证明。

  • 辛钦大数定律(Cinchin large numbers law):

要求随机变量序列独立同分布,且每个Xi数学期望存在

设{Xn}为一独立同分布的随机变量序列,若xi的数学期望存在,则{Xn}服从大数定律。
根据辛钦大数定律,当n足够大的时候,可以把平均观察值作为期望的近似值,优点是可以不用管X的分布

  • 应用:参数估计、矩估计的相合性(样本k阶原点矩是总体k阶原点矩的相合估计、 样本k阶中心矩是总体k阶中心矩的相合估计、样本矩的连续函数是总体矩连续函数的相合估计);保险,当保险标的数量足够大时我们可以根据以往的统计数据计算出某种损失发生的估计概率,这个概率比较稳定,可以根据这个概率来计算可能发生的损失并确定收取多少保费。再比如,博彩、银行业也有广泛运用
  • 大数定律证明过程(由切比雪夫证明):

由切比雪夫不等式与夹必准则可以证明伯努利大数定律、切比雪夫大数定律、马尔可夫大数定律
由特征函数可证辛钦大数定律


矩估计(Moment estimation)

矩估计分为总体矩(Overall moment)和样本矩

  • 矩估计的统计思想:替换原理(Replacement principle)———用样本矩估计总体矩,用样本矩的相应函数去估计总体矩的函数【实质为用经验分布去替换总体分布,理论基础是格里纹科定理】

  • 格里纹科定理:【经典统计学的一切统计推断都是以样本为依据,理由也都是格里纹科定理】当n相当大时,经验分布是总体分布函数F(x)的一个良好近似。
    (通俗来讲,总体概率密度已知时,假定总体的k阶原点矩存在,那么比k低阶的原点矩也都存在,对于待估参数 θ \theta θ若能表示为各阶原点矩的函数,那么就可以给出该待估参数的矩估计(即用样本矩代替原点矩带入该函数)。有了 θ \theta θ的矩轨迹,就可以得到g( θ \theta θ)的矩估计)

  • 优点:获取估计量简便易行;
    不要求事先知道总体的分布,当总体分布类型未知时仍可对总体各阶矩进行估计;
    在一定条件下矩估计量还具有相合性和渐近正态性

  • 缺点:总体分布类型已知时未能充分利用先验信息导致信息损失、不唯一

  • 柯西分布的矩估计不存在

  • 指数分布、泊松分布的的矩估计不唯一(分别可以用均值和方差的函数估计)

极大似然估计(maximum likelihood estimate)(定义、性质/优点、应用)

似然函数 likelihood function
unbiased estimator 无偏估计量、consistent estimator 一致估计量

  • 定义:概率大的事件比概率小的事件更容易发生,将事件A发生概率的最大值作为参数的估计量【利用总体分布的表达式和样本提供的信息,构造参数θ的估计量】

  • 步骤:根据密度函数写出似然函数(连乘积);求似然函数的最大值(取对数求导)

  • 性质
    渐进有效性 Gradually approaching effectiveness—随着n逐渐增大,极大似然估计量相比于其他估计量方差最小
    渐进正态性 Gradually approach normality—当n趋于∞时,极大似然估计量渐进服从正态分布
    相合性 Compatibility—当n趋于∞时,极大似然估计量依概率收敛于真值
    不变性 invariability— θ 1 \theta_1 θ1是参数 θ \theta θ的极大似然估计量,g( θ \theta θ)是 θ \theta θ的函数,则g( θ \theta θ)的 极大似然估计量为g( θ 1 \theta_1 θ1)

  • 缺点
    ①必须知道分布的概率密度,要求很高计算有时很复杂,需要迭代;
    ②从统计决策理论来看,任何统计推断都应该依赖损失函数,而极大似然估计从未考虑过损失函数(最小二乘估计就是基于损失函数来考虑的)
    ③不一定无偏
    反例:正态分布的方差的极大似然估计非无偏
    ④不一定唯一
    反例:U( θ \theta θ, θ \theta θ+1)的极大似然估计是一个区间
    ⑤不一定存在

  • 应用:机器学习中的逻辑回归和朴素贝叶斯分类器


评价估计量好坏的标准
  • 无偏性 Unbiased:估计量抽样分布的数学期望等于被估计的总体参数
  • 有效性 effectiveness:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效
  • 一致性 Compatibility:随着样本量的增大,点估计量的值越来越接近被估计的总体参数

大样本下用相合性、渐近正态性判断估计量的好坏
小样本下,若无偏,用方差;有偏,用均方误差


置信区间(confidence interval )、置信度(confidence level )、解释95%的置信区间
  • 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间
  • 置信度/置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率
  • 置信度1-α的含义:在随机抽样中,若重复抽样多次,得到多个样本值,每个样本值都确定了一个置信区间( θ 1 \theta_1 θ1 θ 2 \theta_2 θ2),每个这样的区间要么包含了 θ \theta θ的真值,要么不包含。根据伯努利大数定律,当抽样次数充分大时,这些区间中包含 θ \theta θ的真值的频率接近于置信度,即在这些区间中包含真值的区间大约有100(1-α)%个,不包含真值的区间大约有100α%个
  • 95%的置信区间:抽取100个样本,根据每一个样本构造一个置信区间,由100个样本构造的总体参数的100个置信区间中,95%的区间包含了总体参数的真值,5%没有包含

参数估计(parameter estimation)(点估计point estimation vs区间估计interval estimation)

参数估计:根据样本信息估计总体分布中的未知参数【当参数不存在无偏估计时,参数是不可估的】
estimator 估计量、estimate 估计值

  • 点估计:通过样本构造统计量,从而对总体分布中的未知参数进行估计
  • 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到
  • 区别
    ①取值形式不同:点估计取具体的值;区间估计取一个区间
    ②评价方式不同:点估计用无偏性、有效性、一致性等来评价;区间估计用置信度、精确度等 来评价

假设检验(原理、步骤、两类错误、如何选取原假设与备择假设)

若假设可以用一个参数集合表示,则称为参数假设检验问题,否则称为非参数假设检验问题
拒绝域rejection region 接受域acceptance region

  • 原理:小概率思想—发生概率很小的随机事件在一次试验中几乎不可能发生,根据这一原理可以做出是否拒绝原假设的决定

即:如果对总体的某个假设是真实的,那么不能支持这一假设的时间A在一次实验中是几乎不可能发生的,若事件A发生了,则有理由怀疑这一假设的真实性,因此拒绝这一假设

  • 步骤
    ①提出原假设(null hypothesis)与备择假设(alternative hypothesis)
    ②构造检验统计量;确定在原假设成立的条件下该检验统计量的抽样分布
    ③计算临界值;在给定的显著性水平下,根据抽样分布得出原假设成立时的临界值,由临界值构造拒绝域和接受域
    ④作出决策;根据样本资料计算样本统计量的值,并与临界值进行比较,决定拒绝还是接受原假设

  • 如何选取原假设
    ①等号放原假设
    ②把如果它成立但是误判为不成立时会造成严重后果的命题选为原假设
    ③传统公认的既定事实放原假设
    ④把分析人员想要证明正确的命题为备择假设,努力证明不正确的为原假设
    【因为原假设不能轻易拒绝,除非你有足够的证据表明它不对】


假设检验vs参数估计

联系:️

  • 都是用样本信息推断总体参数
  • 以抽样分布为理论依据 建立在概率论基础上的推断,推断结果都有一定的风险
  • 对同一问题的参数进行推断,二者使用同一样本、同一统计量、同一分布,所以二者可以相互转化

区别:️

  • 参数估计——以样本资料估计总体参数的可能范围
    假设检验——以样本资料检验对总体参数的先验假设是否成立
  • 参数估计——求得的是以样本估计值为中心的双侧置信区间
    假设检验——既有双侧检验又有单侧检验
  • 参数估计——立足于大概率,通常以较大的把握(可信度)1-a去估计总体参数的置信区间
    假设检验——立足于小概率,通常是给定很小的显著性水平a去检验对总体参数的先验假设是否成立
  • 一个是采用演绎法的思想;另一个是反证法的思想
  • 一个是构造枢轴量-包含未知参数;另一个构造检验统计量—不包含未知参数

显著性水平(Significance level )α vs P值(概念、区别)
  • 显著性水平α:当原假设为真时却被拒绝的概率,即假设检验中犯弃真错误的概率
  • P值: 就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率,是拒绝原假设的最小显著性水平;如果p值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,就有理由拒绝原假设,p值越小,拒绝原假设的理由就越充分
  • 关系:若p≤a,则在显著性水平a下拒绝原假设;若p>a,则在显著性水平a下不拒绝原假设
  • 区别
    显著性水平—犯第一类错误的概率,是事先给定的,比较笼统
    p值—根据样本观测值的偏离程度给出的,更加精确;检验结论对任何统计量均适用; 在改变显著性水平时,无须重新计算p值
统计的显著性?生活中有哪些东西和统计的显著性有关
  • 显著性——两个群体之间的差异是由于系统因素而不是偶然因素所造成的影响
  • 统计显著——原假设为真的条件下,样本统计量的值落在拒绝域内,作出拒绝原假设的决定,统计显著说明这种现象不太可能是偶然的
  • eg:医药行业的新药物做临床试验经常会用到统计显著性

列联表(contingency table )的独立性检验(定性变量)

独立性检验就是分析列联表中行变量和列变量是否相互独立

  • 步骤:
    第一步:建立原假设和备择假设
    第二步:计算自由度和理论频数
    第三步:计算卡方统计量,实际观察次数与理论次数之差的平方再除以理论次数得到的统计量近似服从卡方分布
    第四步:查χ2方分布临界值表,确定接受域,做出决策

方差分析(定义、基本思想、基本假定)

通过对误差来源的分析,判断不同总体之间的均值是否相等,进而判断分类型自变量对数值型因变量是否具有显著影响
结构:
组内误差(SSE):由抽样的随机性造成的随机误差,反映每个样本内各观测值的总离散状况
组间误差(SSA):可能是由于抽样本身形成的随机误差,也有可能是由于总体本身的系统性因素造成的系统误差,反映样本均值之间的差异程度
全部数据误差(SST):包含了随机误差和系统误差在内的所有误差,反映全部观测值的离散状况

  • 基本思想:
    误差分解:总平方和可以分解为组间平方和与组内平方和。组内误差只包含随机误差,而组间误差既包含随机误差也包括系统误差
    误差分析:如果组间误差只包含随机误差而没有系统误差,这时组间误差与组内误差的比值就会接近1;反之,如果组间误差除了包含随机误差外还包含系统误差的话,这时组间误差与组内误差的比值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在着显著差异,即分类型自变量对数值型因变量有影响
  • 基本假定
    ①每个总体都应该服从正态分布
    ②各个总体方差必须相同(因为F检验对方差齐性的偏离较为敏感,故方差齐性检验十分必要)
    ③观测值是独立的
方差齐性检验(检查不同样本的总体方差是否相同)

基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。常用方法有:Hartley检验、Bartlett检验、修正的Bartlett检验


相关分析(analysis of correlation)(定义、基本假定、相关系数)

相关关系:变量间存在的不确定的数量关系(一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个)
协方差分析(analysis of covariance)

  • 如果方差分析时需要考虑干扰项,此时就称之为协方差分析,而干扰项也称着“协变量”。
  • 协方差分析就是把另外的变量作为协变量(covariate,连续变量),其他的作为自变量(independent,分类变量);把协变量转换成相等的(排除其影响),看自变量对因变量是否还有显著影响
  • 基本假定:两个变量之间是线性关系;两个变量都是随机变量
  • 相关系数:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量
    若相关系数是根据总体全部数据计算的,称为总体相关系数;若是根据样本数据计算的,则称为样本相关系数。
  • 相关系数的性质
    (1)的取值范围是-1≤r≤1。若0<r≤1,表明x与y之间存在正线性相关关系;若-1≤<0,表明x与y之间存在负线性相关关系;若=+1,表明x与y之间为完全正线性相关关系;若=-1,表明x与y之间为完全负线性相关关系。可见当||=1时,y的取值完全依赖于x,二者之间即为函数关系;当=0时,说明y的取值与x无关,即二者之间不存在线性相关关系。
    (2)具有对称性
    (3)数值大小与x和y的原点及尺度无关。改变x和y的数据原点及计量尺度,并不改变r数值大小。
    (4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。
    (5)虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。

回归分析(analysis of regression)(定义、步骤、结果的评价、模型的含义、模型的假定、判定系数coefficient of determination)

对具有相关关系的变量之间数量变化关系进行测定,确定一个合适的回归方程,据以进行估计或预测的统计方法

  • 步骤
    ①明确预测的具体目标,确定因变量和自变量
    ②进行相关分析。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义;因此作为自变量的因素与作为因变量的预测对象是否有关、相关程度如何以及判断这种相关程度的把握性有多大是进行回归分析必须要解决的问题。进行相关分析,先求相关系数,以相关系数的大小来判断自变量和因变量的相关程度
    ③建立预测模型。根据资料计算,建立回归分析方程
    ④计算预测误差。回归方程只有通过各种检验且预测误差较小,才能将回归方程作为预测模型进行预测
    ⑤确定预测值。利用回归预测模型计算预测值,并对预测值进行综合分析确定最后的预测值
  • 回归分析结果的评价
    ①所估计的回归系数(regression coefficient)的符号是否与理论或事先预期相一致;
    ②如果理论上认为自变量与因变量之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此;
    ③用判定系数来回答回归模型在多大程度上解释了因变量y取值的差异;
    ④考察关于误差项的正态性假定是否成立。
    因为在对线性关系进行F检验和对回归系数进行t检验时,都要求误差项服从正态分布,否则,所用的检验程序将是无效的。检验正态性的简单方法是画出残差的散点图或正态概率图。
  • 一元线性回归模型中有哪些基本的假定
    (1)因变量y与自变量x之间具有线性关系。
    (2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
    (3)误差项ε是一个期望值为0的随机变量,即。
    (4)对于所有的x值,误差项的方差都相同。
    (5)误差项是一个服从正态分布的随机变量,且独立,即。

方差分析vs回归分析
  • 相同点:
    ①方差分析与回归分析的变量都是两个或两个以上
    ②方差分析与回归分析的结果都是得出因变量和自变量之间的关系
  • 不同点:
    ①原理不同
    方差分析:通过对误差来源的分析,判断不同总体之间的均值是否相等,进而判断分类型自变量对数值型因变量是否具有显著影响
    回归分析:对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个合适的回归方程,据以进行估计或预测的统计方法
    ②分析方法不同
    方差分析:单因素、双因素方差分析
    回归分析:线性、非线性回归分析

相关分析vs回归分析
  • 联系
    ①都是对变量间相关关系的分析。
    ②相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻求变量间相关的具体数学形式才有实际的意义。
    同时,在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上的。
  • 区别
    ①从研究目的上看
    相关分析是用一定的数量指标度量变量间相互联系的方向和程度;
    而回归分析是要寻求变量间联系的具体数学形式,根据自变量的给定值去估计和预测因变量的平均值。
    ②从对变量的处理
    相关分析对称地对待相互联系的变量,不考虑二者的因果关系,也就是不区分自变量和因变量,相关的变量不一定具有因果关系,均视为随机变量。
    回归分析是在变量因果关系分析的基础上研究其中的自变量的变动对因变量的具体影响,必须明确划分自变量和因变量,所以回归分析中对变量的处理是不对称的,在回归分析中通常假定自变量在重复抽样中是取固定值的非随机变量,只有因变量是具有一定概率分布的随机变量。

最小二乘估计(least squares estimate)(原理、应用)

sum of squares of residual 残差平方和
sum of squares of regression 回归平方和
sum of residual 剩余平方和
total sum of squares of deviations 总变差平方和

  • 对于x和y的n对观察值,用于描述其关系的直线有多条,用距离各观测点最近的一条直线来代表两个变量之间的关系,用最小化观测值与估计值的离差平方和来估计参数,根据这一方法确定模型参数和的方法称为最小二乘法,也称为最小平方法
  • 应用:曲线拟合(机器学习)寻找目标函数的最优解

多元回归分析(定义、基本假定、多重判定系数、多重共线性)

多元回归分析(Multiple Regression Analysis):在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。

  • 基本假定
    多元回归的基本假定
  • 多重共线性
    多重共线性是指回归模型中两个或两个以上的自变量彼此相关。
    回归分析中存在多重共线性会产生以下问题:
    (1)变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;
    (2)多重共线性可能对参数估计值的正负号产生影响,特别是回归系数的正负号有可能同预期的正负号相反。
  • 多重共线性的判别方法
    在这里插入图片描述
  • 多重共线性的处理方法
    (1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。
    (2)如果要在模型中保留所有的自变量,则要:
    ①避免根据t统计量对单个参数β进行检验;
    ②对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。
  • 为什么要计算调整后的多重判定系数(Multiple coefficients of determination)

在这里插入图片描述

在多元线性回归中,为什么我们对整个回归方程进行检验后,还要对每个回归系数进行检验呢

答:在多元线性回归中,线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,在k个自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。

  • 回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中了。另外,通过该步骤还可以初步判断自变量间是否存在多重共线性:当某些重要的自变量的回归系数t检验不通过而同时整个回归方程的线性关系检验又能通过时,则通常预示着自变量间存在多重共线性

似然比检验
  • 似然比检验和显著性检验都是假设检验的一种方法。
  • 似然比检验构造的统计量是一个分子比分母的形式,两个似然函数的比值。因为似然函数里面是有未知参数的,所以分子的参数用极大似然估计去代替,分母的参数是用原假设设的值去代替。
  • 当这个检验统计量很大时,说明极大似然估计求得的参数和原假设的参数相距较远,所以应该拒绝原假设。
正态性检验(正态概率图)
  • 正态分布是最常用的分布,用来判断总体分布是否为正态分布的检验方法称为正态性检验
  • 最简单而直观的正态性检验-正态概率图:
    ①数据按大小排序;
    ②对每一个i,计算修正频率;
    ③将数据逐一点在正太概率图上 看看是否在一条直线上 正态性变换:对数、倒数、根号变化)
    (w检验 8<n<50时可以利用 数据排序 构造w统计量比较分位数wα)
    (EP检验 构造EP检验统计量 比较该检验统计量的分位数)
非参数检验(nonparametric tests)(游程检验、符号检验、秩和检验Run test, symbol test, rank and test)

卡方拟合优度检验(test for goodness of fit)
  • 它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的
  • 卡方拟合度检验用于判断不同类型结果的比例分布相对于一个期望分布的拟合程度。卡方拟合性检验适用于变量为类别型变量的情况。
  • 步骤
    (1)将观测值分为k组 ;
    (2)计算n次观测值中每组的观测频数,记为Oi;
    (3)根据变量的分布规律或概率运算法则,计算每组的理论频率为Pi;
    (4)计算每组的理论频数Ti ;
    (5)检验Oi与Ti的差异显著性,判断两者之间的不符合度
模型参数的最小二乘估计和具有哪些统计特性?若模型用于预测,影响回归预测精度的因素有哪些?
  • (1)统计特性
    ①线性,即估计量和为随机变量的线性函数;
    ②无偏性,和分别是截距系数a和斜率系数b的无偏估计;
    ③有效性,和是所有线性无偏估计量中具有最小方差的估计量。
  • (2)影响因素
    ①预测的把握度要求。同样情况下,要求预测的把握度越高,则相应的预测区间就越宽,精度越低;
    ②总体y分布的离散程度。越大,相应的预测区间就越宽,预测精度越低;
    ③样本观测点的多少n。n越大,相应的预测区间就越窄,预测精度越高;
    ④样本观测点中,解释变量x分布的离散度。x分布越离散,预测精度越高;
    ⑤预测点离样本分布中心的距离。预测点越远离样本分布中心,预测区间越宽,精度越低,越接近样本分布中心,区间越窄,精度越高。

统计学


统计数据的类型
  • 按计量尺度的不同,分为分类数据、顺序数据(品质数据)和数值型数据(数量数据)
    —分类数据:归于某一类别的非数字型数据,事物表现为类别,用文字来表述。如:性别
    —顺序数据:归于某一有序类别的非数字型数据,事物表现为有序的类别。如:产品等级
    —数值型数据:按数字尺度测量的观察值,数据表现为具体的数值,具有分类数据和顺序数据的特点,可以进行加减乘除的运算。如:年龄
  • 按统计数据的收集方法,分为观测数据、实验数据
    —观测数据:通过调查或观测收集到的数据,是在没有人为控制下得到的,有关社会经济现象的统计数据几乎都是观测数据
    —实验数据:在实验中通过控制实验对象收集到的数据,自然科学领域的大多数数据都是实验数据
  • 按被描述的现象与时间的关系,分为截面数据、时间序列数据
    —截面数据:在相同或近似相同的时间点上收集到的数据,用于描述现象在某一时刻的变化情况
    —时间序列数据:在不同时间上按时间顺序收集到的数据,用于描述现象随时间变化的情况

概率抽样vs非概率抽样
  • 概率抽样:遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选为样本,每个单位被抽中的概率是可以计算出来的
  • 非概率抽样:抽取样本时不是依据随即原则,而是根据研究目的对数据的要求,采用某种方式主观地从总体中抽出部分单位对其实施调查
  • 相同点
    ①都是非全面调查;②调查单位少,可节省人力、物力、时间;③灵活性强;④属于由部分到全体的调查方式
  • 不同点
    —概率抽样依据随机原则抽取样本,样本统计量的分布是理论存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所需要的样本量
    —非概率抽样不是依据随机原则抽取样本,样本统计量的分布是不确切的,因而无法使样本的
  • 举例说明什么情况下采用
    —概率抽样:目的在于掌握总体的数量特征,得到置信区间,技术含量高,要求专业,成本高。如:股票投资收益率的估计
    —非概率抽样:适合探索性研究,调查结果用于发现问题,为更深入的数量分析做准备。如:市场调查中的概念测试
概率抽样的组织方式
  • 简单随机抽样
    定义:从N个总体单位的抽样框中随机的、一个一个的抽取n个单位作为样本,每个单位入样的概率是相等的
    优点:简单直观、参数估计及计算估计误差比较方便
    缺点:要求包含所有总体单位的名单作为抽样框,当N很大时,构造抽样框比较困难;抽出的单位分散,给实施调查增加了困难;没有利用其他辅助信息提高估计的效率
    例子:大学课堂的点名;买彩笔的时候不可能全部试一遍,挑几个颜色试一下,没有规律可言等等
  • 分层抽样
    定义:将抽样单位按某种特征划分为不同的层,然后从不同的层中独立的、随机的抽取样本,将各层的样本结合起来,对总体的目标量进行估计
    优点:保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较接近,可以有效提高估计的精度;既可以对总体参数估计,也可以对各层的目标量进行估计
    缺点:整体差异不明显时不适用,在使用时需要与其他抽样方法综合使用
    例子:调查大学生的消费水平,先分为四个年级,从四个年级中随机的抽取50个人作为样本
  • 整群抽样
    定义:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
    优点:抽取样本时只需要中选群的抽样框,而不要求包括所有单位的抽样框;调查地点相对集中,节省调查费用
    缺点:估计的精度较差
    例子:调查中学生患近视眼的情况,抽一个班做统计调查
  • 系统抽样
    定义:将总体中的所有单位按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
    优点:操作简便;对总体内的单位进行有组织的排列,可以有效地提高估计的精度
    缺点:对估计量的方差估计比较困难
    例子:工厂连续性生产,为了检验产品的质量,每隔一小时取5分钟生产的产品作全部检验
  • 多阶段抽样
    定义:采用类似整群抽样的方法,首先抽取群,再进一步抽样,从选中的群中抽取若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以称为二阶段抽样,其中群是初级抽样单位,第二阶段抽取的是最终抽样单位,将这种方法推广,使抽样的段数增多,称为多阶段抽样
    优点:样本相对集中,节约调查费用;不需要包含所有低阶段抽样单位的抽样框;实行再抽样,使调查单位在更广的范围内展开
    缺点:抽样时较为麻烦,而且从样本到总体的估计比较复杂
    例子:调查某县人口,先以乡为抽样框,抽取一部分,然后在抽中的乡里面,以村为单位进行抽样,即抽出若干个,最后,再在抽取的村里面抽取一定的人口。整个过程中各阶段的抽样,则可以采取简单随机抽样或者分层抽样。
非概率抽样的组织方式
  • 方便抽样:调查员根据方便的原则自行确定作为样本的单位
  • 判断抽样:调查员根据经验和对研究对象的了解,有目的的选择一些单位作为样本。其中包括重点抽样、典型抽样、代表抽样
  • 自愿抽样:被调查者自愿向调查员提供有关信息
  • 滚雪球抽样:首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查员根据提供的线索继续调查。该抽样适合于稀少和特定的群体
  • 配额抽样:首先将总体中的所有单位按一定的标志分为若干类,然后在每个类中采用方便抽样或判断抽样选择样本单位
整群抽样与分层抽样的区别和联系
  • (1)相同点:分层抽样和整群抽样都是需要事先按某一标志对总体进行划分的随机抽样。
    不同点:
    • 分层抽样的划分标志与调查标志有密切关系,而整群抽样的划分标志不一定与调查标志有关;
    • 分层抽样在总体的每个层内随机抽样,而整群抽样在总体全部群体中随机抽取一部分群体;
    • 分层抽样的抽样误差取决于各层总体方差的平均数,而整群抽样的抽样误差取决于总体的群间方差;
    • 分层抽样的目的主要是缩小抽样误差,满足推断各子总体数量特征的需要,而整群抽样的目的主要是扩大抽样单位,简化抽样组织工作。
  • (2)适用场合:分层抽样用于层间差异大而层内差异小的总体;整群抽样用于群间差异小而群内差异大的总体,或只有以群体为抽样单位的抽样框时等。

抽样误差vs非抽样误差

抽样误差:由抽样的随机性引起的样本结果与总体真值之间的误差,是一种随机性误差,只存在于概率抽样中,通过增大样本量可以减小抽样误差

抽样误差影响因素分析
①样本单位数目。其他条件不变,抽样数目越多,抽样误差越小;抽样数目越少,抽样误差越大;当n=N时就是全面调查,抽样误差此时为零。
②总体标志变异程度。其他条件不变,总体标志变异程度越大,抽样误差越大,反之亦然
③抽样方法。不重复抽样的抽样误差要小于重复抽样的抽样误差,当n相对N非常小时,两种抽样方法的抽样误差相差很小,可忽略不计
④抽样组织方式。不同的抽样组织方式有不同的抽样误差,分层抽样的抽样误差较小,整群抽样的抽样误差较大

非抽样误差:除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。无论是在概率抽样、非概率抽样,还是在全面调查中,都有可能产生非抽样误差。

非抽样误差的种类:
抽样框误差
回答误差(理解误差、记忆误差、有意识误差)
无回答误差
调查员误差
测量误差


分类数据和顺序数据的图示方法
  • 条形图:用宽度相同的条形的高度或长短来表示数据多少
  • 帕累托图:按各类别数据的出现频数多少排序后绘制的柱形图
  • 饼图:用圆形及圆内扇形的角度来表示数值大小的图形,用来描述各部分占总体的比例,适合研究结构性问题
  • 环形图:多个饼图的叠加,图中的每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。用于表述多个样本各部分占总体的比例,适用于多样本构成研究
  • 累计频数分布图和累计频率分布图(分类数据不适用)
条形图和直方图的区别
  • 条形图用高度表示各类别频数的多少,宽度是固定的;直方图用面积表示各类别频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义
  • 由于分组数据具有连续性,条形图是分开排列的,直方图是连续排列的
  • 条形图展示分类数据;直方图展示数值型数据

集中趋势(central tendency)(众数、中位数、平均数)
  • 众数:一组数据中出现次数最多的变量值(分类数据、顺序数据、数值型数据)

是峰值,不受极端值的影响,具有不唯一性;只有在数据量较大时才有意义

  • 中位数:一组数据排序后处于中间位置上的变量值(顺序数据、数值型数据)

是位置代表值,不受极端值的影响

  • 平均数:由一组数据相加后除以数据个数所得的结果(数值型数据)

易受极端值的影响,对于偏态分布的数据,平均数的代表性较差;平均数利用了全部数据信息,是集中趋势的最主要测度值

  • 关系:

对称:众数=中位数=平均数
左偏分布:平均数<中位数<众数
右偏分布:众数<中位数<平均数

离散程度(异众比率、四分位差、平均差、极差、方差、离散系数)
  • 异众比率:非众数频数占总体全部频数之比,用于衡量众数对一组数据的代表程度(分类数据)

异众比率越大,众数的代表性越差;异众比率越小,众数的代表性越好。

  • 四分位差:上四分位数与下四分位数之差,反映中间50%数据的离散程度(顺序数据)

数值越小,说明中间的数据越集中;数值越大说明中间的数据越分散。不受极端值的影响

  • 平均差:一组数据中各数据对平均数的离差绝对值的平均数

以平均数为中心,反映了每个数据与平均数的平均差异程度,能全面准确的反映一组数据的离散状况。在计算时对离差取了绝对值,给计算带来不便,应用较少

  • 极差:一组数据的观察值中最大值与最小值之差,易受极端值的影响;不能准确描述出数据的分散程度(少用)
  • 方差(标准差standard deviation):各个数据分别与其平均数之差的平方和的平均数,通过平方的颁发消去离差的正负号,然后再进行平均

能较好反映出数据的离散程度,是实际中应用最广的离散程度测度值

  • 离散系数:(变异系数(coefficient of variation))标准差与平均数之比

当进行两个或多个资料变异程度的比较时,如果各样本的度量单位、平均数相同,可以直接利用标准差来比较,不同时就不能采用标准差来比较,采用离散系数可以消除量纲的影响,使结果更准确
离散系数大,数据的离散程度大,反之亦然


抽样调查vs典型性调查
  • 定义上:
    数量推断总体;
    找典型特征,根据这个特征选择目标群体,对群体全面分析
  • 组织形式:
    简单随机、分层、系统、整群、多阶段;
    一般典型个体的抽取、划类选点
正态分布所描述的随机现象有什么特点?为什么很多现象服从或近似服从正态分布

特点

  • 对称性
  • 参数μ和σ一旦确定就能确定分布的表达式,μ和σ不一样,组成的分布是正态分布的分布族
  • 正态分布两个尾部逐渐接近横坐标但是绝不会相交
  • 正态曲线下的总面积为1

原因【中心极限定理】

  • 如果原来的分布非正态,无论样本服从什么分布,只要样本容量足够大,该分布会近似服从正态分布。许多随机现象可以通过增加样本量来转化为正态分布

补充

聚类分析的思想
  • 聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类间个体特征的差异性较大。
    聚类分析是多元分析的方法之一,聚类分析是将个体或对象分类,使得同一类中对象之间的相似性比其他类的对象的相似性更强。
  • 其目的是把相似的研究对象归成类,使类内对象的同质性最大化和类与类间对象的异质性最大化。
    我们认为,所研究的样品之间存在程度不同的相似性。于是根据一批样品的多个观测指标,具体找出一些能够度量样品之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品聚合为另一类…关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品间的亲疏关系表示出来。
  • 聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。
    对样品分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。
  • 聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。

在这里插入图片描述

决策树

在这里插入图片描述

  • 应用
支持向量机(support vector machines)

通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。由简至繁的模型包括:

当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;
当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;
当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机;

  • 是有监督学习算法的一种,用于解决数据挖掘或模式 识别领域中数据分类问题。
  • 主要思想是:建立一个最优决策超平面,使得该平面两侧距离平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化力(推广能力)
    “支持向量”:则是指训练集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。
    SVM:它是一种有监督(有导师)学习方法,即已知训练点的类别,求训练点和类别
  • 应用:SVM 在文本分类、人脸识别、手写字符识别、生物信息学等领域已应用非常成功
神经网络—深度学习的基础(有强大的函数拟合能力
  • 神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术

  • 包括三种:

    • 单层神经网络(感知器)
    • 两层神经网络(多层感知器)
    • 多层神经网络(深度学习)
  • 一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。

  • 神经元模型的使用可以这样理解:

我们有一个数据,称之为样本。样本有四个属性,其中三个属性已知,一个属性未知。我们需要做的就是通过三个已知属性预测未知属性。

具体办法就是使用神经元的公式进行计算。三个已知属性的值是a1,a2,a3,未知属性的值是z。z可以通过公式计算出来。

这里,已知的属性称之为特征,未知的属性称之为目标。假设特征与目标之间确实是线性关系,并且我们已经得到表示这个关系的权值w1,w2,w3。那么,我们就可以通过神经元模型预测新样本的目标。

深度学习
  • 深度学习的4种典型算法:
    卷积神经网络 - CNN
  • 能够将大数据量的图片有效的降维成小数据量(并不影响结果)
    能够保留图片的特征,类似人类的视觉原理
    应用:人脸识别、骨骼识别
    循环神经网络 - RNN
  • 是一种能有效的处理序列数据的算法。比如:文章内容、语音音频、股票价格走势…
    之所以他能处理序列数据,是因为在序列中前面的输入也会影响到后面的输出,相当于有了“记忆功能”。但是 RNN 存在严重的短期记忆问题,长期的数据影响很小(哪怕他是重要的信息)。
    应用:语音识别、文本生成
    生成对抗网络 - GANs
    警察与小偷的能力共同提升
    深度强化学习 - RL
  • 强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平
朴素贝叶斯
  • 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
    在这里插入图片描述
机器学习
  • 是什么:人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断(机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法)
  • 在这里插入图片描述
  • 模式识别=机器学习
  • 数据挖掘=机器学习+数据库
  • 统计学习近似等于机器学习(统计学习注重对统计模型的优化,机器学习注重解决问题
  • 计算机视觉=图像处理+机器学习
  • 语音识别=语音处理+机器学习
  • 自然语言处理=文本处理+机器学习
  • 算法:回归算法、神经网络、支持向量机、聚类算法、降维算法、
核函数—核函数和映射没有关系。核函数只是用来计算映射到高维空间之后的内积的一种简便方法

(二维到三维------用于解决非线性问题)
线性核函数,就是简单原始空间中的内积。

多项式核函数,可根据R和d的取值不同,而有不同的计算式。

高斯核函数,可根据实际需要灵活选取参数σ,甚至还可以将原始维度空间映射到无穷维度空间。不过,如果σ取值很大,会导致高次特征上的权重衰减快;如果σ取值很小,其好处是可以将任意的数据映射成为线性可分,但容易造成过拟合现象。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值