机器学习基本概念、线性回归模型——机器学习入门

task1

【声明】:转摘注明出处,禁止商用。
【声明】:转摘注明出处,禁止商用。
【声明】:转摘注明出处,禁止商用。

1. 机器学习基本概念

  • 监督学习:

    监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)。【来源于《统计学习方法》】。

监督学习的特点就是数据具有标签或者函数值,而模型就是学习其输入向量到标签或者函数值的映射关系。监督学习的代表任务是分类和回归。

  • 无监督学习:

    没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。它是监督式学习强化学习等策略之外的一种选择。【来源于 维基百科】

  • 泛化能力:

    泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。【来源于 《统计学习方法》】

常常把数据预先划分为训练集和测试集,通过训练集对模型中的参数进行学习,在测试集对模型进行误差测试,来考验模型的泛化能力,从此可以把泛化能力看出学得模型适用于新样本的能力,即为泛化能力。

  • 过拟合欠拟合(方差和偏差以及各自的解决方法):

过拟合:

一味追求对于“ 训练数据 ”的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对于已知数据预测得很好,但对未知数据预测得很差的现象。

偏差-方差分解(bias-variance decomposition)分析中,过拟合现象出现在训练后期,拟合能力逐渐增强,此时方差主导了泛化错误率,在训练充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若数据自身的、非全局的特性被学习器学到了,则将发生过拟合。

解决途径:

  1. 简化训练的模型(算法),选择对于问题适当的学习算法,当算法选择相对于问题过于复杂时,对于模型的中变换的复杂程度增加,会容易使模型对于训练集过于拟合,导致问题发生,选择合适的问题模型算法更好。
  2. 由于训练充足后,会对于数据的轻微扰动都会产生显著影响,因此需要对数据进行更高程度的清洗,对于数据的正确性做好保障。
  3. 增加训练数据,训练数据的增加让训练的时间和延长到达训练充足的时间点,达到过拟合的时间成本也会提高,便于中止和提前发现过拟合现象。
  4. 增加正则化项

过拟合根据问题的不同,可以出发的角度也不同,过拟合也可以认为是把数据中与问题建立模型无关的信息(噪声)也纳入问题模型中,让整个模型的输入空间的正确映射范围变得狭小,把一些本应该为正确映射范围的值排除掉了,导致模型的泛化能力太弱。

欠拟合:

欠拟合与过拟合想反,是模型对于数据本身的分布和映射关系还没学习完整,在终止任务的学习算法时,还未能到达期望泛化误差的下界。

偏差-方差分解(bias-variance decomposition)分析中,欠拟合现象出现在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率。

解决途径:

  1. 针对问题选择合适的算法模型,当前模型对于问题来说表达力不足,需要有更强表达能力的算法模型。
  2. 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。【来源 will_duan博客
  3. 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
  • 交叉验证:

    交叉验证是一种从数据集角度的出发的技巧,把数据集按比例划分互补子集(训练集、测试集),对于模型针对训练集学习参数,多次重复按比例划分混乱数据集,再次训练,直到满足模型满足条件时训练结束。

2. 线性回归原理

线性回归问题,对应于问题来说,从问题提炼出的特征以一个变量的形式存在于线性回归的方程组里,而其变量前的系数则取决于该特征对于问题本身的贡献,所带来的影响。

问题模型可以划分为四个空间,输入空间,特征空间、假设空间,输出空间。

  • 输入空间的维度则取决于我们对于建模时所提炼的特征变量的个数。
  • 特征空间是输入空间的一个发展,对于特征与问题本身就具有很强的线性关系时,特征可能不会有很大的处理,这时近似于特征空间约等于输入空间,当问题与特征具有很强的不相关性时(比如XOR问题),可能会才取特征映射技术,比如SVM中常用的核函数,特征哈希、特征学习等。
  • 假设空间是我们需要求解的空间,也就是系数向量存在的空间,我们想要找到一个足够好的高纬度平面,让模型的预测值尽量的接近问题的本身值。
  • 输出空间往往是一个实数空间,是输入向量和系数向量的点积的结果。

h θ ( x ) = ∑ i = 0 n θ i x i = θ T x h_{\theta}(x) =\sum_{i=0}^{n}\theta_{i}x_{i} = \theta^{T}x hθ(x)=i=0nθixi=θTx

3. 线性回归损失函数、代价函数、目标函数

损失函数代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)。

这里不举例常见有哪些损失函数,可以点击这个链接

4. 优化方法(梯度下降法、牛顿法、拟牛顿法)

  • 梯度下降法(GD ,Gradient Descent):

    梯度下降法是一种迭代算法,选取适当的初值 x ( 0 ) x^{(0)} x(0) ,不断迭代,更新x的值,进行目标函数的极小化,知道收敛。由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减小函数值的目的。(必须要满足目标函数具有一阶连续偏导数)

    有三个衍生的变形分别是如下三个,

    • 批量梯度下降(BGD, Batch Gradient Descent)
    • 随机梯度下降(SGD, Stochastic Gradient Descent)
    • 小批量梯度下降(MBGD, Mini-batch Gradient Descent)

    【详细点击这里】

  • 牛顿法(Newton’s method):

    牛顿法其实也就是一种递归算法,其本身是找零点的一种算法,最原始的定义如下:

    选择一个近似函数 f ( x ) f(x) f(x) 的零点 x 0 x_{0} x0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值