注:参考视频教程---网易云课堂《统计建模轻松入门》张文彤
-
传统模型:
,
y:因变量 ; x:自变量 ; :未知参数; :扰动函数。
其中,第一个加项是自变量对因变量的影响,反映出的是共性特征;而第二个加项反映出的是个性特征。
在统计建模中,需要求出的第一个加项的表达式,并根据分布,估计出未知参数。
传统模型的弊端:
- 只能用于求解简单的显示表达式,且比较复杂的函数关系无法表示出;
- 只能用于自变量和因变量可区分的情形
-
变量的测量尺度:
测量尺度:指用怎样的精确程度来测量感兴趣的指标。
- 名义尺度:信息量最低,=无序多分类
- 顺序尺度:=有序分类,无法衡量类与类之间的差异多少;
- 标度尺度:可以衡量之间的差距,定距尺度无绝对零点,只能作加减;定比尺度,有绝对零点,可做加减乘除。
级别 | 变量类型 |
---|---|
名称级 | 定类变量 |
顺序级 | 定序变量 |
间隔级 | 定距变量 |
比例级 | 比例变量 |
其中,定类变量又可称为,无序变量;定序变量,称为顺序变量;定距变量、定比变量,都称为定量变量。
级别从上到下依次降低,值得注意的是:高级别的可以抛弃部分信息转化成低级别的变量,比如:一个班级的考试成绩从0到100,原属于定比变量,但是可以将其划分为0-60、60-80、80-100分别设为不及格、合格、优秀等三类,属于顺序变量(定序变量);再进一步抛弃信息:超过60 的记“好”,不然记“坏”,则属于定类变量。
而低级别的无法转化为高级别的,因为这一过程中,需要人为添加信息,往往不准确。
-
模型分类:
如果自变量和因变量可以区分:
(生存分析模型中需要注意:生存时间、结局。)
如果自变量和因变量不能区分:
- 根据目的分类:
聚类方法:应用于市场细分、协同推荐
预测方法:回归模型、时间序列模型
关联归纳方法:购物篮分析、序列分析
- 根据方法原理分类:
1.基于传统统计模型的推断方法
在抽样理论的支持下,首先假定预测比那辆和应i选哪个因素间诚信啊某冲公式化的联系,然后采用假设检验的方法来验证相应的假设是否成立,并给出相应的参数估计值。
2. 基于机器识别基数的自动化方法
非推断性方法,没有前提假设,直接从数据集中寻找关联,后采用验证数据集对找到的关联加以验证。
-
损失函数:
损失函数:衡量模型的信息损失或是预测错误程度的函数。
模型拟合的最终目标:损失函数最小。
对不同类型的变量,常见的损失函数有:
- 对分类变量:错分比例,分类预测正确性,熵;
- 对连续变量:残差所代表的信息量的综合及其所导致的损失,最小乘法中的残差平方和,离均值绝对值之和(最小一乘法)。
注意:因为因子分析和主成分分析没有目标,所以也就不存在损失函数。
有监督的学习,才需要损失函数。
凸函数,convex function ,局部最小值是全局最小值。比如图一,图二。
非凸函数,局部最小值不是全局最小值,如图三。
要尽量把损失函数构造成凸函数,这样一来,求最小值较为容易---此时最小值就是极小值。
-
控制模型的复杂程度:惩罚项
惩罚,即扣分。
在理想的损失函数的基础上加一个惩罚项,用于表达模型的复杂程度,以避免一味地追求精确而使得模型过于复杂。
- 由来:
将原模型:原损失函数 = 模型精确性衡量指标;
修正为:新损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指标;
但是,考虑到在不同的实际应用中所要求的精确和复杂也许不是同等地位的,于是加权,进一步地修正如下:
原损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指。
- 正则化的别名:
- 在机器学习中,正则化(regularization);
- 在统计学领域,模型惩罚项(penalty);
- 在数学上,范数(norm);
- 基本作用:
保证模型尽可能的简单,避免参数过多导致过拟合;约束模型特性,加入一些先验知识,例如稀疏、低秩。正则化函数一般是模型复杂度的单调递增函数,模型越复杂,代价越大。
- 几种常见的正则化/惩罚项/范数类型:
L0正则化:复杂度指标为模型中非零参数的个数;易理解,但数学上很难求解;
L1正则化:为模型中各个参数绝对值(加权)之和 ,比如几何学上的曼哈顿距离(街区距离,我觉得就是各个分量做差,再取绝对值的那种距离),主要用于特征选择/筛选变量,实例:Lasson回归。
L2正则化 :为模型中各个参数平方(加权)之和的开方,即欧氏距离,主要用于防止过拟合,实例:岭回归。
Ln正则化:为模型中各个参数n次方(加权)之和的开n次方。