Day1 ：线性回归算法梳理

最新推荐文章于 2022-12-18 21:34:54 发布

窝窝头GISer

最新推荐文章于 2022-12-18 21:34:54 发布

阅读量175

点赞数

1 机器学习基本概念

监督学习与非监督学习

监督学习和无监督学习的区别：是否有训练样本用于训练。

监督学习：有训练样本用于训练→得模型→利用这个模型，对未知数据分类。常用的学习方法：K-近邻算法、决策树、朴素贝叶斯、逻辑回归等。

无监督学习：没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。无监督学习的主要运用包含：分群(Cluster Analysis)、关系规则(Association Rule)、维度缩减(Dimensionality Reduce)；典型的方法有：聚类算法、降维方法。

泛化能力

指由该方法学习到的模型对未知数据的预测能力。

过拟合、欠拟合

欠拟合就是模型没有很好地捕捉到数据特征，不能够很好地拟合数据。
过拟合通俗的讲就是模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了。过拟合的模型泛化能力差。

方差与偏差的关系

在这里插入图片描述

交叉验证

留出法
k折交叉验证
自助法

2 线性回归

基本原理

线性回归假设特征和结果满足线性关系。一般用来解决连续值变量预测问题，是有监督学习。

函数模型：

损失函数：

损失函数是求每个点到我们求解的这条直线的距离差的总和。
因为不是所有点都在直线上，所有你要衡量这条直线是不是最好的拟合函数，你需要对每个点，求到这条直线的距离，然后将所有的距离相加，得到的距离总和，使得总和最小的直线就是最好的拟合直线。

在这里插入图片描述

最小二乘法求解：
参考文章： Neo-T：最小二乘法求回归直线方程的推导过程

3 优化方法

梯度下降

梯度下降算法是一种求局部最优解的方法，对于F(x)，在a点的梯度是F(x)增长最快的方向，那么它的相反方向则是该点下降最快的方向，具体参考：wiki/Grandient_descent

在这里插入图片描述
我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向。
在这里插入图片描述

参考文章：深入浅出–梯度下降法及其实现

4 sklearn参数

Parameters:	

fit_intercept : boolean, optional, default True # 是否需要截距，默认为Ture。fasle表示没有截距，直接过原点
normalize : boolean, optional, default False # 是否需要标准化处理，默认不需要
copy_X : boolean, optional, default True # Ture表示X会被copied，False表示X会被重写
n_jobs : int or None, optional (default=None) # 用于作业的计算数，默认为1

参考： sklearn.linear_model.LinearRegression

待完善…

窝窝头GISer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day1 ：线性回归算法梳理

目录1.机器学习的相关概念2.线性回归原理损失函数、代价函数、目标函数评估指标3.优化方法梯度下降法牛顿法拟牛顿法4.sklearn参数详解1 机器学习基本概念监督学习与非监督学习统计学习包括监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督(semi-supervised learning)、强...
复制链接

扫一扫