task1
【声明】:转摘注明出处,禁止商用。
【声明】:转摘注明出处,禁止商用。
【声明】:转摘注明出处,禁止商用。
文章目录
1. 机器学习基本概念
-
监督学习:
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)。【来源于《统计学习方法》】。
监督学习的特点就是数据具有标签或者函数值,而模型就是学习其输入向量到标签或者函数值的映射关系。监督学习的代表任务是分类和回归。
-
无监督学习:
没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。无监督学习的主要运用包含聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。它是监督式学习和强化学习等策略之外的一种选择。【来源于 维基百科】
-
泛化能力:
泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。【来源于 《统计学习方法》】
常常把数据预先划分为训练集和测试集,通过训练集对模型中的参数进行学习,在测试集对模型进行误差测试,来考验模型的泛化能力,从此可以把泛化能力看出学得模型适用于新样本的能力,即为泛化能力。
- 过拟合欠拟合(方差和偏差以及各自的解决方法):
过拟合:
一味追求对于“ 训练数据 ”的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对于已知数据预测得很好,但对未知数据预测得很差的现象。
在偏差-方差分解(bias-variance decomposition)分析中,过拟合现象出现在训练后期,拟合能力逐渐增强,此时方差主导了泛化错误率,在训练充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若数据自身的、非全局的特性被学习器学到了,则将发生过拟合。
解决途径:
- 简化训练的模型(算法),选择对于问题适当的学习算法,当算法选择相对于问题过于复杂时,对于模型的中变换的复杂程度增加,会容易使模型对于训练集过于拟合,导致问题发生,选择合适的问题模型算法更好。
- 由于训练充足后,会对于数据的轻微扰动都会产生显著影响,因此需要对数据进行更高程度的清洗,对于数据的正确性做好保障。
- 增加训练数据,训练数据的增加让训练的时间和延长到达训练充足的时间点,达到过拟合的时间成本也会提高,便于中止和提前发现过拟合现象。
- 增加正则化项
过拟合根据问题的不同,可以出发的角度也不同,过拟合也可以认为是把数据中与问题建立模型无关的信息(噪声)也纳入问题模型中,让整个模型的输入空间的正确映射范围变得狭小,把一些本应该为正确映射范围的值排除掉了,导致模型的泛化能力太弱。
欠拟合:
欠拟合与过拟合想反,是模型对于数据本身的分布和映射关系还没学习完整,在终止任务的学习算法时,还未能到达期望泛化误差的下界。
在偏差-方差分解(bias-variance decomposition)分析中,欠拟合现象出现在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率。
解决途径:
- 针对问题选择合适的算法模型,当前模型对于问题来说表达力不足,需要有更强表达能力的算法模型。
- 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。【来源 will_duan博客】
- 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
-
交叉验证:
交叉验证是一种从数据集角度的出发的技巧,把数据集按比例划分互补子集(训练集、测试集),对于模型针对训练集学习参数,多次重复按比例划分混乱数据集,再次训练,直到满足模型满足条件时训练结束。
2. 线性回归原理
线性回归问题,对应于问题来说,从问题提炼出的特征以一个变量的形式存在于线性回归的方程组里,而其变量前的系数则取决于该特征对于问题本身的贡献,所带来的影响。
问题模型可以划分为四个空间,输入空间,特征空间、假设空间,输出空间。
- 输入空间的维度则取决于我们对于建模时所提炼的特征变量的个数。
- 特征空间是输入空间的一个发展,对于特征与问题本身就具有很强的线性关系时,特征可能不会有很大的处理,这时近似于特征空间约等于输入空间,当问题与特征具有很强的不相关性时(比如XOR问题),可能会才取特征映射技术,比如SVM中常用的核函数,特征哈希、特征学习等。
- 假设空间是我们需要求解的空间,也就是系数向量存在的空间,我们想要找到一个足够好的高纬度平面,让模型的预测值尽量的接近问题的本身值。
- 输出空间往往是一个实数空间,是输入向量和系数向量的点积的结果。
h θ ( x ) = ∑ i = 0 n θ i x i = θ T x h_{\theta}(x) =\sum_{i=0}^{n}\theta_{i}x_{i} = \theta^{T}x hθ(x)=i=0∑nθixi=θTx
3. 线性回归损失函数、代价函数、目标函数
损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)。
这里不举例常见有哪些损失函数,可以点击这个链接
4. 优化方法(梯度下降法、牛顿法、拟牛顿法)
-
梯度下降法(GD ,Gradient Descent):
梯度下降法是一种迭代算法,选取适当的初值 x ( 0 ) x^{(0)} x(0) ,不断迭代,更新x的值,进行目标函数的极小化,知道收敛。由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减小函数值的目的。(必须要满足目标函数具有一阶连续偏导数)
有三个衍生的变形分别是如下三个,
- 批量梯度下降(BGD, Batch Gradient Descent)
- 随机梯度下降(SGD, Stochastic Gradient Descent)
- 小批量梯度下降(MBGD, Mini-batch Gradient Descent)
【详细点击这里】
-
牛顿法(Newton’s method):
牛顿法其实也就是一种递归算法,其本身是找零点的一种算法,最原始的定义如下:
选择一个近似函数 f ( x ) f(x) f(x) 的零点 x 0 x_{0} x0