机器学习(1)

为邻

于 2018-12-19 20:07:30 发布

阅读量162

点赞数 1

分类专栏：机器学习文章标签：机器学习基本术语线性回归 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39908296/article/details/85107215

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一些基本概念

简单理解人类可以通过以往经验的积累与利用，对新情况做出有效的决策。机器可以通过对大量数据的学习，面对一个新的数据时可以对其进行分析与决策。
机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
机器学习可分为：监督学习、无监督学习、半监督学习

监督学习

由已有的数据包括输入输出，训练模型函数；然后把新的输入数据带入模型函数，预测数据输出；函数的输出可以是一个连续的值，或是预测一个分类标签。

无监督学习

输入的数据不知道输出结果，需要让机器自己学着去怎么做事情。比如一些聚类算法。

泛化能力

在机器学习方法中，泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中，我们通常通过测试误差来评价学习方法的泛化能力。举一反三的能力。

过拟合

模型的复杂度要高于实际的问题，所以就会导致模型死记硬背的记住，而没有理解背后的规律。比如有一个树叶的训练样本，这片树叶有锯齿特征，这时判断一个新样本，这个新样本没有锯齿，判定这不是一片树叶。可能是学习能力太强，一些不太一般的特性都学到了。这也是机器学习面临的关键障碍。

欠拟合

是和过拟合相对的现象，可以说是模型的复杂度较低，没法很好的学习到数据背后的规律。

交叉验证

交叉验证用于防止模型过于复杂而引起的过拟合。有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize）。

线性模型

基本形式：
给定由d个属性描述的示例x = (x1;x2;…;xd),其中xi是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即

一般用向量形式写成

其中w=(w1;w2;…;wd)。w和b学得之后，模型就得以确定。

线性回归

给定数据集 D={(x1,y1),(x2,y2),…,(xm,ym)},其中xi=(xi1;xi2;…;xid),yi∈R。"线性回归"试图学得一个线性模型以尽可能准确地预测实际值输出标记。

损失函数，代价函数，目标函数

损失函数是定义在单个样本上的，算的是一个样本的误差。
代价函数是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。
目标函数定义为：最终需要优化的函数。

优化方法

梯度下降法
- 梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。
牛顿法
- 牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。牛顿法最大的特点就在于它的收敛速度很快。
拟牛顿法
- 拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。

线性回归的评估指标

均方误差MSE：(平方和取平均值)
均方根误差RMSE：(平方和取平均值开根号)：平均误差值
平均绝对误差MAE：(绝对值取平均)：
- RMSE>MAE大的原因
  RMSE会放大误差
  所以评估时应尽量让RMSE小

使用sklearn.linear_model.LinearRegression进行线性回归

在这里插入图片描述

参考：
机器学习 - 周志华

https://blog.csdn.net/lyl771857509/article/details/79428475 代价函数，损失函数，目标函数区别

https://www.cnblogs.com/shixiangwan/p/7532830.html 常见的几种最优化方法（梯度下降法、牛顿法、拟牛顿法、共轭梯度法等）

https://www.cnblogs.com/magle/p/5881170.html sklearn学习笔记之简单线性回归

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。