#逻辑回归
通用回归模型:
logit(u)=a+bx;#u为均值#参考0,1二分类中u为发生概率
假设:分类变量的均值u构成的某一函数g(u)与解释变量具有直线关系#用qq图理解,把各自变量分布放在想x,y轴上呈现一条直线#常用的g(u)有各种形式,且g(u)称为联系函数。
*最大似然法#比最小二乘法理解,最小二乘法目标是最小化残差平方和,然后以矩阵的形式对w求导然后等于0求到w;最大似然法是在正态分布的假设情况下#所谓回归分析实则是glm的多因素方差分析,那么方差分析的假设条件是变量要满足正态分布和方差齐性,所以残差的分布应该也是正态分布的;#根据残差的正态分布拿出来一个残差的正态分布的概率密度函数#从直方图/频数/(频率/组距)去理解,所谓似然函数就是根据这个残差的概率密度函数maxF(x),#实则是给定了x求改变W累计的概率密度下面的面积最大化#既然均值动不了,那就只能动方差,方差越小图形越凸起来,面积就越大#所以就变成找到w让方差最小,和残差平方和最小一个意思,那么和最小二乘法目标一致,结果一致。
*最大似然解释为给定X使Y出现的概率最大,实则从一维离散的角度看,直接把概率密度还原成直方图,那么给定x后,就是求x左边所有能取值的频数最大,那么这些x左边能取的这些值又只能从样本中抽,所以求w在给定x使Y出现概率最大实际意思就是找到一种抽取方法,使在样本中去抽那些在x左边的值抽到次数加起来最多。#倾向就是争取每次抽都能抽到的值都是x左边的。