DATAWHALE线性回归梳理

最新推荐文章于 2022-06-18 02:56:04 发布

愛僡

最新推荐文章于 2022-06-18 02:56:04 发布

阅读量194

点赞数

本文链接：https://blog.csdn.net/qq_44700470/article/details/88046499

版权

（1）有监督和无监督学习是机器学习的常用办法。有监督就是通过已有的一些数据输入和输出的关系，去得到一个模型（该模型相当于一个函数，将所有的输入映射为相应的输出，从而达到分类的目的）；无监督：直接对数据进行建模，得到相似的一类，如聚类。那哪种情况下采用监督学习或无监督学习呢？我想最简单的一种方法就是根据定义来选择最合适的。（2）泛化能力是指机器学习算法对新鲜样本的适应能力。
（3）过拟合，为了得到一致假设而使假设变得过度复杂叫过拟合，可能是因为样本数据少的原因。例如，假设h属于一个假设空间H，而存在h’属于H，使的h的错误率小于h’，但实际是大于，这就是h过度拟合训练数据。特点就是高方差（方差是指模型对数据的依赖程度）和低偏差（偏差是指我们忽略了多少的数据）
（4）欠拟合就是模型不能很好的捕捉到数据特征，也就不能很好的拟合数据。可以增加特征点的数量解决欠拟合问题。
（5）交叉验证，拿出大部分样本进行建模，小部分样本用模型进行预报，并求他们的预报误差，一直进行到所有样本被预报且仅预报一次。
线性回归原理：一个或多个称为回归系数（自变量和因变量）的模型参数的线性组合。线性回归属于监督学习
（1）线性回归损失函数

损失函数之所以使用平方形式，是使用了“最小二乘法”的思想，这里的“二乘”指的是用平方来度量观测点与估计点的距离（远近），“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。
（2）代价函数
m 训练集数量
x(i),y(i) 第i个观察实例
（作用就是用来度量预测错误的程度，模型越准确，越接近真实，其函数的值就越小）
（3）目标函数
优化方法
要找到一个最好的函数，就要cost function最小，而梯度下降法或牛顿法等是能够找到cost function的最小值。
梯度下降法就是我们向下走一步，看哪个方向跨度更大
α 决定下一步的步伐大小、后面偏导公式决定方向
先确定向下一步的步伐大小；任意给定一个初始值θ0，θ1；确定一个向下的方向，并向下走预先规定的步伐，更新两个θ参数，直到下一步步伐小于某个定义的值时停止。
评估指标
R-Squared

值越大越好，但不超过1。当其值接近于0，表明训练模型接近于基准模型，即模型拟合很差。
RMSE 指的是均方根误差：MSE 指的是均方误差：
MAE 指的是评价绝对误差：
sklearn参数详解
LinearRegression(fit_intercept（是否有截距）=True,normalize=False（数据是否归一化）,copy_X=True,n_jobs=1)后面两值一般默认。