机器学习新手入门 笔记Task2 #夏令营#Datawhale X 李宏毅苹果书AI夏令营

线性模型

 1.1概念

   将构建的模型函数输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)

  • 定义: 线性模型是一种预测目标变量为输入特征的线性组合的模型。
  • 形式: f(x)=wTx+bf(x)=wTx+b,其中 w代表权重向量,x 是特征向量,b是偏置项。

1.2线性回归

      最基本的线性模型是简单线性回归,它只涉及一个自变量和一个因变量。但实际应用中更常用的是多元线性回归,它涉及多个自变量。

  • 原理: 通过最小化预测值与真实值之间的平方误差来估计模型参数。
  • 损失函数: 常用的损失函数是均方误差(MSE),即
  • 优化方法: 可以使用梯度下降法(Gradient Descent)来求解最优参数。

1.3逻辑回归

  • 原理: 用于解决二分类问题,通过Sigmoid函数将线性模型的输出映射到[0,1]之间,解释为属于某一类的概率。
  • 损失函数: 使用交叉熵损失(Cross-Entropy Loss)作为优化目标。
  • 决策边界: 当输出大于某个阈值(通常是0.5)时,预测为正类。

1.4线性模型的优缺点

  • 优点: 计算效率高,易于理解和实现,可解释性强。
  • 缺点: 对于非线性问题表现不佳,无法捕捉数据中的复杂模式 

2.分阶段性曲线

(线性模型有很大的限制,这一种来自于模型的限制称为模型的偏差,无法模拟真实的情况,所以需要写一个更复杂的、更有灵活性的、有未知参数的函数——即分阶段性曲线)

分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆蓝色的函数。分段线性曲线可以用常数项加一大堆的蓝色函数组合出来,只是用的蓝色函数不一定一样。要有很多不同的蓝色函数,加上一个常数以后就可以组出这些分段线性曲线。如果分段线性曲线越复杂,转折的点越多,所需的蓝色函数就越多。

2.1 基本概念

它指的是由一系列线段组成的曲线,每个线段连接两个相邻的控制点。这种曲线在不同的子区间上由不同的一次函数(即线性段)组成,但在各个连接点处,曲线的值是连续的。

  • 分区: 数据集被分成若干个连续的子区间。
  • 线性段: 每个子区间上都有一个独立的线性模型,模型参数(如斜率和截距)在不同区间可以不同。
  • 连接点: 区间的边界点,称为结点或断点,这些点处的线性模型可能会有不同的斜率。

(过拟合是指一个机器学习模型在训练数据上表现得很好,但在测试数据上表现不佳的现象。)

2.2优势与局限

  • 优势: 能够更好地拟合具有阶段性特征的数据,从而提高模型的灵活性和精度。
  • 局限: 需要更多的时间和资源来选择合适的断点,而且过度分段可能会导致出现过拟合的情况。

3.机器学习框架

       

框架结构


总结

       线性模型是基于线性关系(即一次函数关系)对数据进行建模和预测的方法。在这些模型中,目标变量(也称为因变量或响应变量)被假定为一个或多个自变量(也称为特征、解释变量或预测变量)的线性组合,加上一个误差项。这种关系可以表示为一个方程,其中每个自变量前的系数表示该自变量对因变量的影响程度,而误差项则捕捉了模型中未包含的因素或随机变异。

       线性模型的核心特点在于其简单性和可解释性。它们不仅易于理解和实现,而且能够清晰地展示自变量和因变量之间的关系。通过线性模型的系数,可以直接了解每个自变量对因变量的影响方向和程度,这对于理解和解释数据背后的机制非常有帮助。根据自变量的数量,线性模型可以分为简单线性回归和多元线性回归。简单线性回归仅涉及一个自变量和一个因变量,其模型形式为一个直线方程。而多元线性回归则涉及多个自变量和一个因变量,其模型形式为一个超平面方程。在多元线性回归中,我们可以通过矩阵运算和最小二乘法等方法来求解模型的系数,并评估模型的拟合效果。

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值