DATAWHALE线性回归梳理

  1. (1)有监督和无监督学习是机器学习的常用办法。有监督就是通过已有的一些数据输入和输出的关系,去得到一个模型(该模型相当于一个函数,将所有的输入映射为相应的输出,从而达到分类的目的);无监督:直接对数据进行建模,得到相似的一类,如聚类。那哪种情况下采用监督学习或无监督学习呢?我想最简单的一种方法就是根据定义来选择最合适的。 (2)泛化能力是指机器学习算法对新鲜样本的适应能力。
    (3)过拟合,为了得到一致假设而使假设变得过度复杂叫过拟合,可能是因为样本数据少的原因。例如,假设h属于一个假设空间H,而存在h’属于H,使的h的错误率小于h’,但实际是大于,这就是h过度拟合训练数据。特点就是高方差(方差是指模型对数据的依赖程度)和低偏差(偏差是指我们忽略了多少的数据)
    (4)欠拟合就是模型不能很好的捕捉到数据特征,也就不能很好的拟合数据。可以增加特征点的数量解决欠拟合问题。
    (5)交叉验证,拿出大部分样本进行建模,小部分样本用模型进行预报,并求他们的预报误差,一直进行到所有样本被预报且仅预报一次。

  2. 线性回归原理:一个或多个称为回归系数(自变量和因变量)的模型参数的线性组合。线性回归属于监督学习

  3. (1)线性回归损失函数
    在这里插入图片描述
    损失函数之所以使用平方形式,是使用了“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。
    (2)代价函数
    m 训练集数量
    x(i),y(i) 第i个观察实例
    在这里插入图片描述在这里插入图片描述(作用就是用来度量预测错误的程度,模型越准确,越接近真实,其函数的值就越小)
    (3)目标函数
    在这里插入图片描述

  4. 优化方法
    要找到一个最好的函数,就要cost function最小,而梯度下降法或牛顿法等是能够找到cost function的最小值。
    梯度下降法就是我们向下走一步,看哪个方向跨度更大
    在这里插入图片描述α 决定下一步的步伐大小、后面偏导公式决定方向
    先确定向下一步的步伐大小;任意给定一个初始值θ0,θ1;确定一个向下的方向,并向下走预先规定的步伐,更新两个θ参数,直到下一步步伐小于某个定义的值时停止。

  5. 评估指标
    R-Squared
    在这里插入图片描述
    值越大越好,但不超过1。当其值接近于0,表明训练模型接近于基准模型,即模型拟合很差。
    RMSE 指的是均方根误差:在这里插入图片描述MSE 指的是均方误差:在这里插入图片描述
    MAE 指的是评价绝对误差:在这里插入图片描述

  6. sklearn参数详解
    LinearRegression(fit_intercept(是否有截距)=True,normalize=False(数据是否归一化),copy_X=True,n_jobs=1)后面两值一般默认。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值