* 多元回归与相关
一元回归是因变量Y在一个自变量X上的回归,它仅仅涉及到两个变量的关系问题。多元回归(multiple regress):一个变量(因变量)对其他两个或两个以上变量(自变量)的线性回归关系。 若因变量Y同时受到m个自变量X1,X2,…,Xm的影响,且这m个自变量皆与Y成线性关系,则这m+1个变量的关系就形成m元线性回归。多元回归与相关分析主要解决的问题: 1.建立由多个自变量描述和预测因变量的多元回归方程; 2.在多个自变量中,选择对因变量有显著效应的自变量,剔除不显著的自变量,建立最优回归方程; 3.计算某个自变量在其它自变量固定不变时对因变量的效应,这个效应称为偏回归系数; 4.计算多个自变量综合起来对因变量的多元相关系数,也可计算两变量间在其它变量保持不变时的偏相关系数; 5.计算各个自变量的标准偏回归系数,评定各自变量对因变量影响的相对重要程度。多元相关系数多元相关系数的假设检验在多元线性回归分析中,当其它自变量都保持一定数量水平时,各自变量对因变量的效应(影响),称为偏回归系数。偏回归系数是在其他m-1个自变量都保持一定时,指定的某一自变量对于因变量Y的效用。偏相关系数是在其他m-2个变量都保持一定时,指定的两个变数间相关的密切程度。统计学的假设检验可以分为参数检验和非参数检验,参数检验都是根据一些假设条件推算而来,当这些假设条件无法满足的时候,参数检验的效能会大打折扣,甚至出现错误的结果,而非参数检验通常是没有假设条件的,因此应用范围比参数检验要广。聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理。聚类变量的测量尺度不同,需要事先对变量标准化。我们首先证明高斯分布、伯努利分布和多项式分布属于指数分布族,然后我们由广义线性模型推导出线性回归,逻辑回归和多项式回归。这是因为:线性回归假设样本和噪声服从高斯分布,逻辑回归假设样本服从伯努利分布,多项式回归假设样本服从多项式分布。MDS算法只需要依赖样本的距离矩阵,不需要任何其他的先验知识,降维之后保持了样本在原始空间的相对关系,可以获得很好的可视化效果。使用线性响应模型的排序方法叫线性排序(linear ordination),包括RDA和PCA等;而基于单峰响应模型的被称为非线性排序(nonlinear ordination),包括CCA、CA、DCA和DCCA等。模型的残差是实际值减去预测值。Iris数据集是常用的分类实验数据集,由Fisher,1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。4个属性:Sepal.Length(花萼长度),单位是cm;Sepal.Width(花萼宽度),单位是cm;Petal.Length(花瓣长度),单位是cm;Petal.Width(花瓣宽度),单位是cm;种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾)、以及Iris Virginica(维吉尼亚鸢尾)。似然比检验(LR)、沃尔德检验(Wald)和拉格朗日乘子检验(LM)称为计量经济学的三大检验 。都可以用于检验我们设定的约束条件是否成立。其中 似然比检验(LR)需要估计不带约束模型的似然函数值和带约束模型的似然函数值,利用二者比例构造统计量进行假设检验 。(对数似然变成差值)。 沃尔德检验(Wald)需要估计不带约束模型,并根据约束条件构造统计量,进行假设检验。拉格朗日乘子检验(LM)需要估计带约束模型,并根据约束建立辅助回归,根据辅助回归的可决系数构造统计量进行假设检验 (最终统计量有点像前面异方差中的white检验)。三种检验方式是渐进等价的,只是检验方式不同。可以根据估计的复杂度和模型形式选择检验方法。检验线性约束条件是否成立的F检验;似然比检验LR认为,如果我们设定的约束条件成立,则两个模型估计出的似然函数值应该近似相等的;沃尔德检验(Wald)优点是只需估计无约束一个模型。当约束模型的估计很困难时,此方法尤其适用。另外,F和LR检验只适用于检验线性约束条件,而沃尔德检验适用于线性与非线性约束条件的检验。拉格朗日乘子检验(LM)只需估计约束模型,所以当施加约束条件后模型形式变得简单时,更适用于这种检验,LM乘子检验可以检验线性约束也可以检验非线性约束条件的原假设。第11章 多元回归和相关1多元回归的标准流程:确定模型,求参数(截距和斜率),确定随机误差的分布并进行模型评价,前提条件(assumption)一定要检查。求参数:最小二乘法 LSE(算截距和斜率,保持残差平方和最低)。斜率的重要性,关系到变量存不存在,截距不重要,对模型无贡献。模型评价:方差分解,参数的显著性,残差的正态性,齐性和独立性,多元共线性。做多元回归时要求X变量之间相互独立,否则算出来的β不准。多元共线性总是存在,只是程度不同。判断多元共线性,最好的方法是用膨胀系数VIF。(5或10为临界值)。第12章 多元回归和相关2初始全模型:线性项,交互项,二次项,(两个变量的话就有5个项,一个截距,五个斜率)。分数指数交互作用模型:以往在二元回归模型中,交互作用是X1和X2的乘积,该方法用了80多年,太简单粗暴了。老师开发了FPIR,它把线性的交互作用发展为非线性的,显著地提高了模型的拟合优度。这个模型很简单,就比线性的多了两个参数,他用指数项X1的M次方和X2的N次方量化交互作用。若两个变量交互作用强,就可以考虑用老师的FPIR,比线性项解释的多,如果没有交互作用的时候,直接就两个变量的线性。R的平方,回归能解释的变异/总变异。多元回归中的系数称为偏回归系数。贡献contribution:不光是标准化后的回归系数,还有相关系数。fraction:只考虑X1对Y的作用,只得到了纯粹的X。partial R square:不光对X也对Y,得到了纯粹的X和纯粹的Y,不仅把X中杂乱信息去掉了,也把Y中杂乱信息去掉了,比fraction更彻底。GAM 广义可加模型。第13章 聚类分析和判别分析聚类算法: 1.对于数值变量,k-means(k-均值),欧式距离,不是原数据点 eg:k=4,则选出不在原数据中的4个点,计算图形中每个点到这四个点之间的距离,距离最近的便是属于那一类。标准化之后便没有单位差异了,就可以相互比较。 基于均值,不能用于分类变量,outliers影响大,仅适用于球形数据。 2.对于分类变量,k-mode 3.对于数值和分类变量:k-prototype,lambda 连续变量与分类变量的权重,K=1则等权重;K<1则分类变量;K>1则数值变量。 4.k-medoids(k-中心点)的典型代表PAM,曼哈顿距离,是原数据点 两种因素排序,坐标是(a,b),若k=2,则在其中(通过计算原数据集某一类所有点到某一点距离最短找到该点)选出2个点,计算图形中每个点到这四个点之间的距离,距离最近的便是属于那一类,没有方向性。 outliers 影响小。 5.Hierarchical cluster:将每个变量的不同因素(a,b,c,d,e,f,g)描点成网络,网络变成矩阵(其中网络权重(距离)为矩阵处数值),矩阵变成树形图。聚类:无Y,无监督,依靠X之间的相似性;判别:有Y,有监督,依靠原先X和Y的关系。判别分析和多变量方差分析刚好是反着的,多变量方差分析(Y1,Y2,Y3X)这个Y不是向量,而是矩阵,判别分析(X1,X2,X3Y)。要求样本量大,正态分布,方差齐。对离群值敏感,对线性组合敏感,需要没有多元共线性,跟多元回归的多元共线性一样。回归是连续变量x解释连续变量y方差分析是分类变量x解释连续变量y判别分析(DA)是连续变量x解释分类变量y第14章 排序1主成分分析:1.如果变量不独立,也没问题;2.不是正态分布,也不重要;3.如果两个变量间不单调,就有问题了,需要用CA,所以PCA要求单调;4.在数据中有太多的零值,那么就有问题,需要用CA。我们通常在使用PCA前要做变量的标准化。PCA结果唯一,FA需要主观转换因子数,结果不唯一。FA分析的步骤:1.相关系数矩阵;2.因子提取;3.因子转置;4.做决策。FA要求,数据是线性的,单调的,正态分布的。PCA使用方差,FA使用协方差。FA是压缩列(降的是变量),CA是压缩行(降的是观测值),都是降维手段。聚类和判别都是在行上,所有的排序几乎都是在列上。CA,对应分析,inertia,惯量,反映数据独立性,卡方距离。inertia为0时,表示完全匹配,没有数据的独立性。CA和PCA都是特征向量的方法,PCA使用欧式距离,CA使用卡方距离,PCA只能解决单调,CA也可以处理单峰数据,CA在第一轴排序。PCA有马蹄效应(因为不单调,不是正态分布,不符合PCA前提条件),CA的第二轴产生了拱形效应。CA允许非线性单调的关系。CA的第一轴正确。DCA去趋势化的对应分析,克服了CA的拱形效应。PCA有几个变量,就有几个特征值,特征向量(必须单调)。因子分析不依赖于变量之间的单调性(有因子转置)。PCoA,主坐标轴分析,biplot,二象图,画出score和loading。PCA就是欧式距离,PCoA考虑到了其他距离。观测值是对应的score,变量是对应的loading。第15章 排序28种排序:PCA、FA、CA、PCoA或MDS、NMDS、RDA、CCA、GJAM(前5种对1个矩阵,后3种对2个矩阵)NMDS(Non-metric multidimensional scaling)非参数多维尺度分析 是一种将多维空间的研究对象简化到低维空间进行定位,分析和归类,同时又保留对象间原始关系的数据分析方法。当样本或者物种数量过多的时候使用NMDS会更加准确; 与度量MDS相比,非度量MDS是基于样本对之间的排序相似性/不相似性; 默认是 Bray-Curtis 相异系数,一般用组间样本的秩次(数据排名rank order)上的差异来定义距离。这是一种相对距离。而欧氏距离是绝对差距。 检验NMDS分析结果的优劣用 stress 来衡量。不断最小化应力函数(stress);NMDS图形常用作微生物群落研究的β分析。 NMDS侧重反映距离矩阵中数值的排序关系,弱化数值的绝对差异程度。 NMDS图形类型为散点图,图形中的点代表样本,不同颜色/形状代表不同的样本分组信息。同组间样本点距离远近说明了样本的重复性强弱,分组样本的远近则反应了组间样本距离在秩次(数据排名)上的差异。 stress判断排序好不好,是残差的平方和,越低越好,低于0.05就是非常好的排序结果。 Beta多样性分析之NMDS分析(非度量多维尺度分析) 可以基于进化关系或数量距离矩阵。 横轴和纵轴:表示基于进化或者数量距离矩阵的数值 在二维表中成图。与PCA分析的主要差异在于考量了进化上的信息。 Beta多样性(样本间多样性)之PCoA分析图距离矩阵用于描述两个样本之间的相似程度,以样本的距离矩阵作为算法的输入,每一个点代表一个样本,相同颜色的点表示来自同一个分组,两点的距离越近则表示两者的群落构成差异越小。RA,冗余分析。能解释的部分称为冗余信息。loading乘以变量的每个值得到了score。constrained部分就是能解释的部分,unconstrained部分就是无法解释的部分。R square adj就对应了constrained variance(可解释的部分),维数越多,adjust越厉害。冗余分析的前提:单调。CCA:典范相关分析需要单调,而典范对应分析可以处理非单调。PCA和CA都是对一个矩阵进行分析,而RDA和CCA是对两个矩阵进行分析。PCA和RDA需要单调,线性关系,而CA和CCA不需要单调。NMDS用的最多,比PCA适用性广,适用于各种条件,PCA受限于单调性,是参数的。有3种矩阵对矩阵的分析,冗余分析RDA,典范相关分析CCA,广义联合属性模型GJAM。FA有各种各样的方法找因子,有因子旋转,而PCA没有旋转。第16章 广义线性模型1一般线性模型(general linear model):符合正态性,方差齐性,独立性。 包括:T检验/U检验(两个分类变量),ANOVA(多个分类变量),简单线性回归 simple linear regression(不是分类变量,而是连续变量,只有一个x,一次方),协方差模型 ANCOVA(一个分类变量,一个连续变量),多元线性模型 multiple linear regression(多个连续变量x) 都是对应的y是一个连续变量。 连接函数是其本身,也叫“恒等连接函数”(identity link function); 一般线性模型是广义线性模型的一种特殊形式。广义线性模型(generalized linear model,GLM): 是说y已经不是正态分布,或者已经不是连续的了,他的分布可能是二项分布,泊松分布等。 包括3个部分:随机成分 random component;系统成分 systematic component;连接函数 link function。 随机成分:响应Y的概率分布,对于不同的Y分布,采用不同的模型。 logistic regression 逻辑回归 分类问题(某种暴露与疾病发生、努力程度与拿到offer);因变量是二分类(0-1);自变量既可以是连续的,也可以是分类的;残差和因变量都要服从二项分布; 对数变换:几率Odds = p/1-p = 事件发生概率/1-事件发生概率 = e^x,logit(p)= ln(p/1-p)= x(这个x可以是一堆变量的组合); Odds = exp (β0 + β1X1 + β2X2 + … + βnXn) + error; 连接函数是logit; 逻辑回归输出的不是一个具体的值,而是一个概率;P被限制在0和1之间,logit§在负无穷到正无穷之间; 参数估计采用最大似然估计 maximum likelihood estimation,MLE;(几个概率乘在一起,使得L最大化);似然比检验 likelihood ratio test,LR,似然比统计量概率值:似然值更大,就更好;Wald Test,Wald统计量概率值。 逻辑回归和线性回归的区别? 1.逻辑回归:二项分布,最大似然,分类问题,0-1。 2.线性回归:正态分布,最小二乘,回归问题,实数域。 例子:Odds ratio,OR,优势比 逐步回归分析 stepwise regression analysis:选择自变量以建立最优回归方程的回归分析方法。最优回归方程,指在回归方程中,包含所有对因变量有显著影响的自变量,而不包含对因变量影响不显著的自变量。过程是:按自变量对因变量影响效应,由大到小逐个把有显著影响的自变量引入回归方程,而那些对因变量影响不显著的变量则可能被忽略。另外,已被引入回归方程的变量在引入新变量后,其重要性可能会发生变化,当效应不显著时,则需要从回归方程中将此变量剔除。引入一个变量或从回归方程中剔除一个变量都称为逐步回归的一步。每一步都要进行F检验,以保证在引入新变量前回归方程中只含有对因变量影响显著的变量,而不显著的变量已被剔除。直到回归方程中所有变量都不能剔除而又没有新变量可以引入时为止,逐步回归过程结束。 AIC,赤池信息量准则,Akaike’s information criterion:衡量统计模型拟合优良性(Goodness of fit)的一种标准,AIC值越低,模型越好。AIC=2k-2ln(L)。k是指变量个数,每增加一个变量,都对模型有贡献,但likelihood增加可大可小,2(1-ln(L)),如果likelihood增加的很少,那么添加这个变量去解释模型就是无意义的。第17章 广义线性模型2 Poisson regression 泊松回归 反应变量Y是泊松分布;描述单位时间、单位面积或者单位容积内某事件发现的频数分布情况,通常用于描述稀有事件(即小概率)事件发生数的分布。 连接函数是log,也叫“对数连接函数”(log link function); 参数估计采用最大似然估计 maximum likelihood estimation,MLE;最大似然方法估计θ的核心思想是,去找到能使得基于当前观测值的联合概率尽可能达到最大的θ。(可理解为:变量的取值当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。 泊松回归的独立变量X都是离散型随机变量。泊松回归的方差等于均值。 广义线性模型函数glm()的用法: glm(formula,family = gaussian, data,…) formula为公式,即为要拟合的模型; family为分布族,包括正态分布、二项分布、泊松分布和 伽玛分布,分布族还可以通过选项link=来指定使用的连接函数; data为可选择的数据框。 各种分布:二项分布,负二项分布,正态分布,泊松分布,三大离散分布:二项分布,负二项分布,泊松分布。二项分布(Binomial distribution):n个独立的伯努利试验中成功的次数的离散概率分布,其中每次伯努利试验的成功概率为p。如果随机变量X服从参数为n和p的二项分布,那么记X~b(n, p)。期望为E[X] = np; 方差为Var[X] = np(1 - p)。负二项分布(Pascal distribution):在一系列独立同分布的伯努利试验中,成功次数到达指定次数(记为r)时失败次数的离散概率分布,其中每次伯努利试验的成功概率为p。如果随机变量X服从参数为r和p的负二项分布,那么记X~NB(r, p)。期望为E[X] = pr/(1 - p); 方差为Var[X] = pr/(1 - p)^2。例子:机器在坏掉前可以工作的天数。二项分布 vs 负二项分布:都是掷硬币实验,二项分布设置掷多少次;负二项分布设置失败多少次,是开放的,离散程度更大,方差远大于均值。泊松分布(Poisson distribution):单位时间内随机事件发生次数的随机分布。如果随机变量X服从参数为λ的泊松分布,那么记为X~Π(λ),或X~P(λ)。均值和方差均为λ。方差等于均值。当λ=50时, 可以认为泊松分布呈正态分布。例子:每天的中奖率,一天中发生车祸的次数。泊松分布近似于试验次数n很大,成功的概率p很小的二项分布。此时λ = np。为什么在RNA-seq中对基因进行差异分析时用负二项分布而不是泊松分布?(过度离散时用负二项分布,不能直接用泊松分布,方差>>均值)对于泊松分布而言,其均值和方差是相等的;而对于负二项分布而言,方差随着均值的增加而进行二次函数形式的递增。我们真实的数据形式是每一个点代表一个基因,对于每个基因,方差并不与均值相等,而是向上偏离了均值。因此负二项分布是更合适的分布估计。混合线性模型 GLMM:自带空间上自相关。零截断模型。零膨胀模型。混合效应模型:具有固定效应和随机效应。固定效应影响联合分布的均值,而随机效应影响方差和关联结构。在随机效应模型中,对单个处理效应的检验是毫无意义的。条件逻辑回归。多元逻辑回归(y的取值不限于0或1,可以是好几个分类变量)。模型比较:模型评估(模型的准确率):ROC曲线中的AUC,Kappa(此评估准确率减去了随机预测的准确率,故稍低一些)。 模型评估指标AUC和ROC,AUC(area under the curve)是ROC曲线下的面积。ROC(receiver operating characteristic curve)曲线。混淆矩阵:TP 真正例;FP 假正例;FN 假反例;TN 真反例。FPR=FP/(FP+TN)=1-specificity,假阳性率,FPR越小越好;TPR=TP/(TP+FN)=sensitivity,真阳性率,TPR越大越好。ROC曲线:横坐标是specificity(%)(100->0),纵坐标是sensitivity(%)(1->100)。ROC曲线:其中横轴就是FPR(False Positive Rate),纵轴就是TPR(True Positive Rate)。点(0,1),即FPR=0,TPR=1。FPR=0说明FP=0,也就是说,没有假正例。TPR=1说明,FN=0,也就是说没有假反例。这不就是最完美的情况吗?所有的预测都正确了。点(1,0),即FPR=1,TPR=0。这个点与上面那个点形成对比,刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。点(0,0),即FPR=0,TPR=0。也就是FP=0,TP=0。点(1,1),即FPR=1,TPR=1。考察完这四个点,我们可以知道,如果一个点越接近左上角,那么说明模型的预测效果越好。如果能达到左上角(点(0,1)),那就是最完美的结果了。当阈值从0开始慢慢移动到1的过程,就会形成很多对(FPR, TPR)的值,将它们画在坐标系上,就是所谓的ROC曲线。相关系数的含义不是指正相关还是负相关,而是指与所建立的回归函数模型吻合度好不好,绝对值越接近1吻合越好,正相关指一个变量随另一个变量增加而增加,与r毫无关系。相关系数的强弱仅仅看系数的大小是不够的.一般来说,取绝对值后,0-0.09为没有相关性,0.3-弱,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关.但是,往往还需要做显著性差异检验,即t-test,来检验两组数据是否显著相关,这在SPSS里面会自动为你计算的.相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。 相关系数r的绝对值一般在0.8以上,认为A和B有强的相关性。0.3到0.8之间,可以认为有弱的相关性。0.3以下,认为没有相关性。第18章 样本调查1.简单随机抽样(随机化过程,保证每个个体被抽到的可能性完全一样)2.系统抽样(也叫等间距抽样,优点,简单,常用,方便,等间距,均匀反映抽样总体,缺点,但若有周期性时不适合,要用SRS破坏周期性)3.分层抽样(优点,每层是等权重的,缺点,需要事先知道层的信息)4.集群抽样(要求cluster内差异大,cluster间差异小,和聚类相反)若有分层信息,最好用分层抽样,若有随机性,只能用随机抽样。试验误差的主要来源有:试验材料固有差异;偶然性因素影响;试验条件不一致;操作技术不一致。过度扩散:方差大于均值。第19章 贝叶斯方法后验概率 = (似然度 * 先验概率)/标准化常量。也就是说,后验概率与先验概率和似然度的乘积成正比。Y就是我们的样本,手头的观测数。m(y)所有概率的总和。P(B)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。 P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。先验分布的确定问题是贝叶斯统计首要的基本问题。贝叶斯方法是基于最大似然估计的。1.有先验分布;2.不停迭代(经过MCMC迭代);3.达到最合理的值。马尔科夫链蒙特卡洛过程(Markov Chain Monte Carlo,MCMC);MCMC算法:1.吉布斯采样(Gibbs Sampling);2.Metropolis-Hastings算法。通过马尔科夫链蒙特卡洛过程(Markov Chain Monte Carlo,MCMC)中的Gibbs采样和Metropolis–Hastings算法进行贝叶斯分析,基本原理是从全条件概率分布中进行抽样,随后产生马尔科夫链,通过反复的迭代,对参数进行估计。贝叶斯方法特别适合解决小样本深层次(复杂)问题。1.物种占域模型(site occupancy model);2.贝叶斯分层模型。占域模型是用于估算某个区域被目标物种所占据的比例,从而进一步估算物种的丰度、预测物种的分布范围和了解群落结构的一种模型。占域模型可以在目标物种占据某样点但不是每次都被探测到的情况下, 通过多次重复调查, 科学地估算单次调查对目标物种的探测概率(detection probability), 进而估算出特定样点或区域被目标物种占有的概率。该模型只需得到目标物种在样点是否出现的数据, 而不需要调查物种数量, 与之前物种丰度或种群大小估算方法, 如标志重捕法等相比, 该模型方法更加简单实用。(野生动物红外相机研究,红外相机要用网格状布设,反映物种空间分布)由于占域模型一般包括目标物种在调查样点是否存在以及是否被监测到2个过程, 所以, 一般用贝叶斯方法求出模型参数。而Presence软件(http://www.mbr-pwrc.usgs.gov/software/presence.html)就是建立占域模型的一个工具, 用其分析并估算占域率和探测率。(1.物种在不在,生境适应度问题;2.能否观测到的问题)用R和WinBUGS实现贝叶斯分级模型。通过WINBUGS软件可以更加简便快捷地实现马尔科夫链蒙特卡洛过程(MCMC),并利用迭代后WINBUGS产生的DIC值判断模型的拟合程度。贝叶斯的参数一直在变,和频率论的思路是非常不一样的。贝叶斯估计中均值严重偏离真值的先验分布会对参数估计带来较大的负面影响。频率论的方法:基于假设检验。第20章 机器学习机器学习算法:ANN(Artificial neural networks,人工神经网络); CART( Classification and regression tree,分类和回归树); Random forest(随机森林); GBM( Generalized boosting models,广义推进模型); GARP( Genetic algorithm for rule set production,规则集生成的遗传算法); Maxent( Maximum entropy method,最大熵法); SVM( Support vector machine,支持向量机)。ANN(有输入,有隐含层,有输出):SLP,MLP,RNN(递归神经网络),CNN(卷积神经网络)。。。 MXNet(多层感知包)一个神经网络由一组相互连接的人工神经元组成,它使用连接主义的计算方法来处理信息。在大多数情况下,神经网络是一种自适应系统,它根据在学习阶段通过网络流动的外部或内部信息来改变其结构。现代神经网络是一种非线性的统计数据建模工具。它们通常用于模拟输入和输出之间的复杂关系,或找到数据中的模式(Ripley1996)。Y~X1+X2+X3…,有三种,1.判别;2.广义线性模型;3.树。树包括分类树和回归树。随机森林(基于树)。随机森林是一个由许多决策树组成的集成分类器。它输出类的单个树输出模式。它处理“小n大p”问题、高阶交互作用、相关预测变量。在每棵树分割时,随机抽取m个特征(输入变量)的随机样本,只考虑这些m个特征进行分割,并且只在这个子集中计算最佳分割。通常是m=sqrt§或log§,其中p是特征的数量。对于在引导样本上生长的每棵树,都将监视引导样本之外遗漏的观察结果的错误率。这被称为包外错误率(OOB)错误率。随机森林试图通过“解除关联”树来改善装袋的效果。每棵树都有相同的期望。不执行修剪步骤,所以森林中的所有树都是最大的树。随机森林若有交互作用时,则预测非常准。高度准确的分类器。速度快。随机森林容易对某些数据集进行过拟合。这在有噪声的分类/回归任务中更为明显。Generalized Boosting Models (BRT)广义推进模型。GARP(规则集预测的遗传算法)。Maxent(最大熵法)。random forest Y - X1, X2, X3, etc.随机森林:用多棵树对样本进行训练并预测的一种分类器。随机森林属于集成学习,也就是将多个模型组合起来解决问题,这些模型会独立学习、预测、再投票出结果,准确度往往比单独的模型高很多,除了决策树,还可以使用神经网络等其他模型,同样的,集成学习内部不必是同样的模型,神经网络和决策树可以共存于一个系统中。随机的过程让它不容易过拟合,能处理特征较多的高维数据,也不需要做特征选择,合理训练后准确性很高。随机森林算法是最常用也是最强大的监督学习算法之一。它兼顾了解决回归问题和分类问题的能力。随机森林算法由一定数量的决策树组成,决策树的数量越大,随机森林算法的鲁棒性越强,精确度越高,Gini算法可以用来构建决策树。优点:1.既可用于解决分类又可用于解决回归问题;2.作为分类器时,即使有部分数据缺失,随机森林也能保持很高的分类精度;3.决策树的增加并不能使随机森林出现过拟合,即不易产生对数据的过度拟合;4.它可以对数量庞大的较高维数据进行分类;5. 对离群值不敏感,在随机干扰较多的情况下表现稳健。缺点:1.解决回归问题的效果不如分类问题;2.训练数据噪声较大,也会造成随机森林的过度拟合;3.黑箱,可以通过尝试不同的参数和种子来获得最佳效果。最大熵和随机森林被称为最准的模型。神经网络(深度学习),随机森林(浅度学习)。有多种树的整合方式:bagging,boosting和随机森林的整合方式。随机森林是bagging的一种更fancy的版本。(Y~X1,X2,X3,这些X可以是分类变量也可以是连续变量)用X去解释Y。有重复的有漏掉的,漏掉的做验证,重新取样找出一些新数据来,这些数据和原始数据是不同的,但是基于原始数据。分组的依据是这些变量的值。每个分叉点可以是多个变量同时限定。随机森林是一个通用模型。袋外数据 OOB out-of-bag 独立于我们构建这些树的数据,袋外数据是用来作为验证的。随机森林分为训练集和验证集。树很少的话,误差比较大。树多的话,误差变小。缺省的话是五百棵树。随机森林比神经网络快10-100倍。一般用很多树,提高精度。可以通过袋外数据计算出变量的重要性。gini算法。随机森林可以画边际效应。随机森林算法很快。可以处理高次项。缺点是overfit的。假阴性高,假阳性低。(marginal effect)随机森林不包括简单模型。而多元回归都是partial effect。逻辑斯蒂回归对自变量的多元共线性非常敏感,要求自变量之间相互独立。随机森林则完全不需要这个前提条件。随机森林对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b),被誉为当前最好的算法之一(Iverson et al. 2008)。随机森林为什么对多元共线不敏感?个人猜想:因为随机森林算法对特征进行了采样,可能线性相关的特征并没有在同一棵树中。随机森林通过袋外误差(out-of-bag error)估计模型的误差。对于分类问题,误差是分类的错误率;对于回归问题,误差是残差的方差。随机森林的每棵分类树,都是对原始记录进行有放回的重抽样后生成的。每次重抽样大约1/3的记录没有被抽取(Liaw,2012)。没有被抽取的自然形成一个对照数据集。所以随机森林不需要另外预留部分数据做交叉验证,其本身的算法类似交叉验证,而且袋外误差是对预测误差的无偏估计(Breiman,2001)。随机森林中分类树的算法自然地包括了变量的交互作用(interaction)(Cutler, et al.,2007),即X1的变化导致X2对Y的作用发生改变。交互作用在其他模型中(如逻辑斯蒂回归)因其复杂性经常被忽略。随机森林可以用于分类和回归。当因变量Y是分类变量时,是分类;当因变量Y是连续变量时,是回归。自变量X可以是多个连续变量和多个分类变量的混合。随机森林对离群值不敏感,在随机干扰较多的情况下表现稳健。可用于:1.判别分析。2.逻辑回归。3.多元回归。随机森林模型有着惊人的准确性,可以替代一般线性模型(线性回归、方差分析等)和广义线性模型(逻辑斯蒂回归、泊松回归等)等等。第0章 生物统计概论统计学七支柱:聚合,信息,似然,相互比较,回归,设计,残差。统计学发展的概貌,大致可划分为:古典记录统计学,近代描述统计学和现代推断统计学。贝努里(大数定律),高斯(正态分布),高尔顿(中位数,四分位数,百分位数),皮尔逊(卡方分布),歌赛特(t分布),费歇尔(F分布)。统计学:用有效的方法收集和分析带随机影响的数据。数理统计学的两个分支:抽样理论和试验设计。第1章 统计数据整理与统计量的计算-描述统计1.数据的类型和特征(1)根据数据取得方式:初级数据,二手数据。(2)根据数据属性:定性数据,定量数据。(3)根据数据发生时间:横断面数据,时间(空间)序列数据。(4)根据数据数学性质:离散数据,连续数据。(5)根据数据的对象范围:普查数据,抽样数据。(6)按衡量尺度:名目尺度(norminal scale,如性别男女,算术运算如加减乘除是无意义的),顺序尺度(ordinal scale,算术运算也是无意义的),区间尺度(interval scale,算术运算如加、减与平均数等均有意义,但无法进行乘、除的运算),比例尺度(加减乘除与平均数等算术运算均有意义)。2.数据的简单描述(1)频数分布表
* 离散数据的频数分布表:单项分组法
* 连续数据的频数分布表:组距式分组法
组距式分组法步骤:1. 求全距,也叫极差,R=Xmax-Xmin;2. 确定组数和组距,组距=全距/组数;3. 确定组限和组中值;4. 分组。(2)统计图形表达 直方图(定量数据),散点图(定量数据),多边形图(又叫折线图)(定量数据),茎叶图(定量数据),箱图,条形图(又叫柱形图)(定性数据),饼图(定性数据),统计地图。 直方图、折线图、散点图可用于定量数据,但不可用于定性数据。(3)常用统计学术语 总体:具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全体。总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体,包含有较多或者无限多个体的总体称为无限总体。 个体:组成总体的基本单元称为个体。 通过样本来推断总体是统计分析的基本特点; 样本容量或样本大小 n; n≤30为小样本,n>30为大样本; 抽样:代表性,随机性,可靠性,可比性。 参数(parameter):总体特征数,也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差; 统计量(staistic):样本特征数,也称统计数。常用拉丁字母表示统计数,例如用X bar表示样本平均数,用S表示样本标准差。统计量由样本算出的量,或者说统计量就是样本的函数。统计量只依赖于样本,而不能与任何未知的量有关。 样本是你拥有的数据,而总体是你“希望”拥有的数据。(4)统计量计算 1.集中性测度统计量(调和平均数,几何平均数,众数,中位数,算术平均数) 2.分散性测度统计量(变异系数,标准差,方差,极差) 3.显示位置的统计量(p百分位数) 4.测定分布型态的峰度及偏度的统计量(峰度,偏度) 样本方差与总体方差:(Variance);标准差是样本方差的平方根,样本标准差与总体标准差:(standard deviation, Sd) ;; 标准差特性:观测数间差异较大的话,离均差也大,标准差也大;各观测数加上或减去一个常数,标准差不变;各观测数乘以或除以一个常数a,标准差扩大或缩小a倍。 标准误(standard error):反映抽样误差。标准差(standard deviation):反映个体变异。 ; 变异系数:样本的标准差除以样本平均数; (coefficient of variability, CV) 是样本变量的相对变异量,不带单位。 可以比较不同样本相对变异程度的大小。第2章 概率与概率分布ω表示样本点(试验的任何一个可能结果);Ω表示样本空间(一个试验的所有可能结果的集合);A、B、C表示事件(样本空间的一个子集称为一个随机事件)。 ω∈A。基本事件:只含一个样本点的事件。统计概率(后验概率);古典概率(先验概率)。事件的相互关系:和事件 AUB;积事件 A ∩ B;互斥事件;对立事件 A+B=U;独立事件;完全事件系(完全事件系的和事件概率为1,任何一个事件发生的概率为1/n)。对立事件:事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。概率的加法法则:P(A∪B)=P(A)+P(B)- P(A∩B);互斥事件加法定理:P(A+B)=P(A)+P(B)条件概率:概率乘法法则:独立事件乘法定理:P(AB)=P(A)P(B)全概率公式:由原因推结果。贝叶斯公式,也称逆概公式:由结果推原因。贝叶斯方法建立在主观判断的基础上,你可以先估计一个值,然后根据客观事实不断修正。概率分布:离散型随机变量(二项分布,泊松分布);连续型随机变量(正态分布)。连续型随机变量的概率由概率分布密度函数所确定。二项分布 binomial distribution,也称贝努里分布;记作B(n, p);1. n越大,分布越对称;2. p越趋于0.5,分布越对称;3. 试验结果只能是“非此即彼”构成对立事件。二项分布的两个条件:重复性(每次试验条件不变时,事件A出现为恒定概率P)和独立性(任何一次试验中事件A的出现与其余各次试验结果无关)。在n重贝努利试验中,事件A恰好发生k(0≤k≤n)次的概率为:;;p+q=1;泊松分布 Poisson distribution(n很大);记作x~P(λ);描述稀有事件;平均数和方差相等,都等于常数 λ;λ是泊松分布所依赖的唯一参数。λ增大时,泊松分布趋于对称。 二项分布当p<0.1和np<5时,可用泊松分布来近似。 当λ=20时分布接近于正态分布;当λ=50时, 可以认为波松分布呈正态分布。 所以在实际工作中,当 λ≥20时就可以用正态分布来近似地处理波松分布的问题。正态分布 normal distribution;也称高斯分布 Gauss distribution;两头少,中间多,两侧对称。;μ是总体平均数,σ是总体标准差。 正态分布曲线在x=μ±σ处各有一个拐点, 曲线通过拐点时改变弯曲度。标准正态分布 standard normal distribution;;;;u是标准正态离差,表示离开平均数μ有几个标准差σ。
* P(μ-σ<x≤μ+σ) =P(-1≤u≤1)=0.6826
* P(μ-2σ<x≤μ+2σ)= P(-2≤u≤2)=0.9545
* P(μ-3σ<x≤μ+3σ)= P(-3≤u≤3)=0.9973
* P(-1≤u≤1)=0.6826
* P(-2≤u≤2)=0.9545
* P(-3≤u≤3)=0.9973
* P(-1.96≤u≤1.96)=0.95
* P(-2.58≤u≤2.58)=0.99
大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。样本容量越大,样本统计量与总体参数之差越小。贝努里大数定律。 辛钦大数定律。第3章 统计量分布-抽样分布抽样分布:样本统计量的分布。样本统计量推断总体参数,以抽样分布为基础。统计推断:假设检验,参数估计。
* 样本平均数的分布:
样本平均数分布的平均数=总体平均数: 样本平均数分布的方差=总体方差除以样本容量: 样本平均数分布的标准误=总体标准差除以根号下样本容量: (1)标准差已知时平均数的分布:抽自正态分布总体
1. 标准误反映了样本平均数 x bar 的抽样误差,即精确性的高低。
2. 标准误大,各样本平均数间差异程度大,样本平均数的精确性低。
3. 标准误小,各样本平均数间差异程度小,样本平均数的精确性高。
4. 标准误的大小与原总体的标准差 σ 成正比,与样本含量 n 的平方根成反比。
5. 从某特定总体抽样,因为σ是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。
(2)标准差未知时的样本平均数的分布----t 分布自由度指独立观测值的个数,因为计算s时所使用的n个观测值受平均数𝒙的约束,就等于有一个观测值不能独立取值。t分布同样要求总体是正态的。
1. 在相同的自由度df时,t值越大,概率P越小。
2. 在相同t值时,双尾概率P为单尾概率P的两倍。
3. df增大,t分布接近正态分布,即t值接近u值。
第4章 统计推断假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设, 然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。小概率原理:概率很小的事件在一次抽样试验中实际是几乎不可能发生的。假设检验的步骤:1.提出假设(原假设,备择假设);2.确定显著水平;3.选定检验方法,计算检验统计量,确定概率值;4.作出推断结论:是否接受假设。能否定H0的人为规定的概率标准称为显著水平,记作α。在显著性检验中,否定或接受原假设的依据是“小概率事件实际不可能性原理”。显著性检验的接受还是否定原假设,都没有100%的把握。在检验原假设时可能犯两类错误。第一类错误是真实情况为H0成立,却否定了它,犯了“弃真”错误,也叫α错误。就是把非真实差异错判为真实差异,即H0真,却接受了HA。第二类错误是H0不成立,却接受了它,犯了“纳伪”错误,也叫β错误。就是把真实差异错判为非真实差异,HA为真,接受H0。当H0错误而正确拒绝H0的概率称为检验功效(power)。1-β通过试验设计和增大样本含量,使σ值减小,是减少两类错误的关键。样本平均数的假设检验。
1. 单个样本平均数的假设检验。
* 大样本平均数的假设检验 — u 检验。总体方差已知,大小样本都可以;总体方差未知,大样本。
* 小样本平均数的假设检验 — t 检验。总体方差未知,小样本。
1. 两个样本平均数的假设检验。
* 成组样本平均数
* 成对样本平均数
样本频率的假设检验。
* 一个样本频率的假设检验
根据n和p的大小,检验方法是不一样的。当np或nq<5时,则由二项式(p+q)n展开式直接检验。当np或nq>5时,二项式接近正态分布,可用u检验,但需进行连续性矫正。当np和nq>30时,可不进行连续性矫正。
* 两个样本频率的假设检验
当两样本的np、nq均大于5时,可以近似地采用 u 检验 法进行检验,但在np和(或)nq 小 于 或 等 于30 时,需作连续性矫正。方差的同质性检验。 就是指各个总体的方差是相同的。方差同质性检验就是要从各样本的方差来推断其总体方差是否相同。
* 一个样本方差的同质性检验: 服从自由度为n-1的χ2分布
* 两个样本方差的同质性检验: F 检验法。 假设两个样本的容量分别为:n1和n2, 方差分别为s1方和s2方(将数值较大的方差作为s1方),总体方差分别为σ1方和σ2方, 当检验σ1方和σ2方是否同质时,可用 F 检验法。当两样本所属总体均服从正态分布,且两样本抽样是随机和独立的,其F值等于两样本方差s1方和 s2方之比。
* 多个样本方差的同质性检验: 巴特勒检验法
第5章 参数估计好估计量的标准:无偏性,有效性,一致性。第6章 卡方检验第7章 方差分析最小显著差数法(LSD法)最小显著极差法 (LSR法): 常用的LSR法有新复极差法和q检验法两种。新复极差法:q检验法(q test),SNK检验(Student-Newman-Keuls test)。单因素方差分析。两因素方差分析。 是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。无重复观测值的二因素方差分析。具有重复观测值的二因素方差分析。方差分析的基本假定:可加性,正态性,方差齐性。平方根转换。 对数转换。 反正弦转换。第8章 重复测量方差分析重复测量资料方差分析的条件: 正态性。 方差齐性。 各时间点组成的协方差阵(covariance matrix)具有球形性 (sphericity)特征。若球对称性得不到满足,方差分析的F值是有偏的,会增大Ⅰ类错误的概率。第9章 相关与一元线性回归