机器学习入门-吃瓜第三章--线性回归

目录

第三章 线性模型

3.1 基本形式

3.2 线性回归

3.2.1 一元线性回归

3.2.2 多元线性回归


第三章 线性模型

3.1 基本形式

  • 线性模型通过属性的线性组合进行预测,一般形式为:

  • 𝑤 是权重向量,𝑥 是特征向量,𝑏 是偏置项。

3.2 线性回归

  • 属性数值化:非数值类属性需要转换为数值,例如:

    • 有序关系:连续化
    • 无序关系:独热编码(One-Hot Encoding)

独热编码是利用0和1表示一些参数,使用N位状态寄存器来对N个状态进行编码。

例如,四种碱基“A” “T” “G” “C”表示为[0,0,0,1],[0,0,1,0],[0,1,0,0],[1,0,0,0]

使用了独热编码后:
1.解决了分类器不好处理属性数据的问题;
2.在一定程度上起到了扩充特征的作用。

3.2.1 一元线性回归

  • 先考虑最简单的情形,输入属性的数目只有一个: f(x_{i})=wx_{i}+b

  • 损失函数:最小二乘法(找到一条直线,使所有样本到直线上的欧氏距离之和最小),使E(w,b)=\sum_{1}^{m}(y_{i}-wx_{i}-b)^{2}最小

arg——argument(参数)

min——minimum(最小值)

该符号表示求使目标函数达到最小值的参数取值,

这里指使均方误差达到最小值的w和b的取值。

  • 最小二乘法推导过程:

将E(w,b)分别对w和b求导

具体推导过程

令其分别为零,得w和b最优解的闭式解

  • 求解w, b:通过最小化损失函数来求解参数 𝑤 和 𝑏。

3.2.2 多元线性回归

一般情形,数据集样本有多个属性,试图学得f(x_{i})=w^{^{T}}x_{i}+b

方法:最小二乘法,向量形式

对于多元线性回归,有

为了方便讨论,将w和b吸收为向量形式\hat{w}=(w;b)=(w_{1};...;w_{d};b)\hat{w}为d+1为向量,需要对x进行一些修改(在原有数据集的基础上增加一列全为1),数据集D表示为m\times (d+1)大小的矩阵X,即

可化为

其中,

将E展开,得

对w求导,

令上式为零,得\hat{w}最优解的闭式解。

参考资料:

1.西瓜书,周志华老师的《机器学习》

2.南瓜书,《机器学习公式详解》第2版

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值