1 线性模型学习笔记
1. 引言
- 线性模型是机器学习中最基础也是最强大的模型之一,广泛应用于各种场景,如分类、回归等任务。
- 在李宏毅老师的书中,线性模型被作为理解更复杂模型的基础来介绍。
2. 线性模型概述
- 定义: 线性模型是一种预测目标变量为输入特征的线性组合的模型。
- 形式: f(x)=wTx+bf(x)=wTx+b,其中 ww代表权重向量,x 是特征向量,bb是偏置项。
- 类型: 包括线性回归(用于回归问题)和逻辑回归(用于分类问题)。
3. 线性回归
- 原理: 通过最小化预测值与真实值之间的平方误差来估计模型参数。
- 损失函数: 常用的损失函数是均方误差(MSE),即
- 优化方法: 可以使用梯度下降法(Gradient Descent)来求解最优参数。
4. 逻辑回归
- 原理: 用于解决二分类问题,通过Sigmoid函数将线性模型的输出映射到[0,1]之间,解释为属于某一类的概率。
- 损失函数: 使用交叉熵损失(Cross-Entropy Loss)作为优化目标。
- 决策边界: 当输出大于某个阈值(通常是0.5)时,预测为正类。
5. 线性模型的优缺点
- 优点: 计算效率高,易于理解和实现,可解释性强。
- 缺点: 对于非线性问题表现不佳,无法捕捉数据中的复杂模式。
2 分段线性模型学习笔记
Hard Sigmoid 函数的特性是当输入的值,当 x 轴的值小于某一个阈值(某个定值)的时候,大于另外一个定值阈值的时候,中间有一个斜坡。所以它是先水平的,再斜坡,再水平的。所以红色线,即分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆蓝色的函数。
1. 基本概念
- 分区: 数据集被分成若干个连续的子区间。
- 线性段: 每个子区间上都有一个独立的线性模型,模型参数(如斜率和截距)在不同区间可以不同。
- 连接点: 区间的边界点,称为结点或断点,这些点处的线性模型可能会有不同的斜率。
2. 模型形式
- 对于单变量分段线性回归:
- 其中 c1,c2,…,cn−1c1,c2,…,cn−1 是分割点,wiwi 和 bibi 是第 ii 个区间的线性系数。
3. 参数估计
- 参数化: 可以通过添加虚拟变量或指示变量来将分段线性模型转化为标准线性回归问题。
- 优化: 使用最小二乘法或其他优化算法来估计所有区间的参数。
4. 断点的选择
- 手动指定: 根据领域知识或数据探索结果来设定断点。
- 自动选择: 通过统计测试(如F检验)或模型选择技术(如AIC/BIC准则)来确定最佳断点位置。
5. 应用
- 经济学: 例如研究收入与消费的关系,可能存在不同收入水平下的不同消费行为。
- 工程学: 用于分析材料强度随应力变化的趋势。
- 生物学: 描述生物体生长速率的变化。
6. 优势与局限
- 优势: 能够更好地拟合具有阶段性特征的数据,提高模型的灵活性和精度。
- 局限: 需要更多的时间和资源来选择合适的断点,而且过度分段可能导致过拟合。
3 机器学习框架
李宏毅 《深度学习详解》
图片来源 哔哩哔哩 李宏毅《机器学习/深度学习》2024课程