目录
第三章 线性模型
3.1 基本形式
- 线性模型通过属性的线性组合进行预测,一般形式为:
- 𝑤 是权重向量,𝑥 是特征向量,𝑏 是偏置项。
3.2 线性回归
-
属性数值化:非数值类属性需要转换为数值,例如:
- 有序关系:连续化
- 无序关系:独热编码(One-Hot Encoding)
独热编码是利用0和1表示一些参数,使用N位状态寄存器来对N个状态进行编码。
例如,四种碱基“A” “T” “G” “C”表示为[0,0,0,1],[0,0,1,0],[0,1,0,0],[1,0,0,0]
使用了独热编码后:
1.解决了分类器不好处理属性数据的问题;
2.在一定程度上起到了扩充特征的作用。
3.2.1 一元线性回归
-
先考虑最简单的情形,输入属性的数目只有一个:
-
损失函数:最小二乘法(找到一条直线,使所有样本到直线上的欧氏距离之和最小),使最小
arg——argument(参数)
min——minimum(最小值)
该符号表示求使目标函数达到最小值的参数取值,
这里指使均方误差达到最小值的w和b的取值。
-
最小二乘法推导过程:
将E(w,b)分别对w和b求导
具体推导过程
令其分别为零,得w和b最优解的闭式解
-
求解w, b:通过最小化损失函数来求解参数 𝑤 和 𝑏。
3.2.2 多元线性回归
一般情形,数据集样本有多个属性,试图学得
方法:最小二乘法,向量形式
对于多元线性回归,有
为了方便讨论,将w和b吸收为向量形式;为d+1为向量,需要对x进行一些修改(在原有数据集的基础上增加一列全为1),数据集D表示为大小的矩阵X,即
可化为
其中,
将E展开,得
对w求导,
得
令上式为零,得最优解的闭式解。
参考资料:
1.西瓜书,周志华老师的《机器学习》
2.南瓜书,《机器学习公式详解》第2版