一、前言
1、 回归分析:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
2、 回归与分类在本质上是一样的,都是在拟合数据集的函数基础上对新样本进行预测。
3、 回归与分类的最大不同仅在于预测值范围不同,分类问题预测离散值,回归预测连续值。
二、线性回归
1、 线性回归:确定两种或两种以上变量间相互依赖的线性定量关系的一种统计分析方法。
2、 一元线性回归:只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。
a) 一元线性模型:
b) 试图学得 ,使得
3、 多元线性回归:回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系。
a) 多元线性模型:
4、 广义线性模型:
a) g(.)为联系函数,将线性模型与特定目标联系起来
b) 也可将其称为激活函数,可解决非线性问题
5、 直观理解
a) 样本集:
b) 样本的属性集:(常添加 在其中)
c) 标签集:
d) 依赖关系描述集:
图1
6、 求解方法
a) 最小二乘法:
b) 极大似然估计:当分布模型为高斯分布时,等效于最小二乘法
三、线性分类
1、 线性分类:线性回归模型映射到离散域,以确定样本属性与其标签(类别)关系的一种统计分析方法。
2、 直观理解
a) 标签为离散值(例如二分类)
b) 引入非线性激活函数(如0-1符号函数、sigmoid函数等)
c) 图2为线性回归,图3使用符号函数作为联系函数,图4使用sigmoid函数作为联系函数(逻辑回归)
d) 线性回归预测连续值,其它两个预测离散值0-1
图2
图3
图4