【机器学习算法笔记】1. 回归器模型

【机器学习算法笔记】1. 回归器模型

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。常见的回归算法包括:最小二乘法(线性回归),逻辑回归,逐步式回归,多元自适应回归样条等。

1.1 线性回归器

所谓线性回归:对于一组输入值X=[x1,x2,…,xn],存在输出y,为了代表输入与输出的函数关系,假定输出估计
这里写图片描述
线性回归器所要求的问题:
这里写图片描述
一元线性回归的基本假设有
1、随机误差项是一个服从相同正态分布的彼此不相关随机变量,其期望值为0;
2、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
3、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
回归参数的最小二乘估计是一致最小方差无偏估计。

1.1.1 最大后验估计(MAP)

这里写图片描述
这里写图片描述
上述建模所要达到的目的:给定参数向量w,使得观测概率最大!
所以我们需要建立观测密度的似然函数:
这里写图片描述
然后求对W的最大似然估计(ML):
这里写图片描述
而最大后验估计器(MAP)考虑到了W的后验概率,采用了参数向量所有的可能信息,并不忽略w的先验信息
这里写图片描述
这里写图片描述
高斯情况下的参数估计
这里写图片描述
通过利用正则化(即引入先验知识),来改进最大似然估计器的稳定性,其最大后验估计器是有偏的。

1.1.2 最小二乘估计

这里写图片描述
可以看出最小二乘估计同高斯估计下的ML是相似的,回归参数的最小二乘估计是一致最小方差无偏估计,同理,为了得到唯一性和稳定性的解,添加了正则项:
这里写图片描述
正则最小二乘估计同MAP是相似的。

1.2 感知器

感知器是用于线性可分模式分类的最简单的神经网络模型。
Rosenblatt感知器如下图所示
这里写图片描述
权值向量的自适应更新:
这里写图片描述

1.3 逻辑回归模型(Logistic Regression, LR)

1.3.1逻辑回归含义

Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型。这一家族中的模型形式基本上都差不多,不同的就是因变量不同:

  1. 如果是连续的,就是多重线性回归;
  2. 如果是二项分布,就是Logistic回归;
  3. 如果是Poisson分布,就是Poisson回归;
  4. 如果是负二项分布,就是负二项回归。

Logistic回归主要针对于解决因变量是二分类的问题。Logistic回归的主要用途:

  • 寻找危险因素:寻找某一疾病的危险因素等;
  • 预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;
  • 判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

1.3.2 逻辑回归模型

逻辑回归的模型是一个非线性模型,但是它本质上又是一个线性回归模型,又或者说是感知器模型。其相当于在普通线性模型输出后,再增加了一个sigmoid函数,又称逻辑回归函数。又或者相当于在感知器模型的sign函数用sigmoid函数来代替。
Logistic regression是针对于二分类问题的,所学习的系统的方程为,这里的h指的是分类正确概率:
这里写图片描述   
其对应的损失函数为:
这里写图片描述   
添加正则项后的目标函数:
这里写图片描述

1.3.2 逻辑回归解释

  1. 从最小熵上考虑
    函数h(θ)的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
    这里写图片描述
  2. 从最大似然角度上考虑
    这里写图片描述
  3. 求解方法
    仍然是梯度下降法:
    这里写图片描述

1.4 Softmax回归模型

上节可以看出逻辑回归是针对于二分类问题的,如果现在的假设是多分类问题,比如说总共有k个类别。这个时候就需要softmax回归,其是逻辑回归在多分类上的推广。
在softmax regression中这时候的系统的方程为:
这里写图片描述   
其中的参数θ不再是列向量,而是一个矩阵,矩阵的每一行可以看做是一个类别所对应分类器的参数,总共有k行。所以矩阵θ可以写成下面的形式:
这里写图片描述   
此时,系统损失函数的方程为:
这里写图片描述   
其中的1{.}是一个指示性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。softmax regression中损失函数的偏导函数如下所示:
这里写图片描述   
公式表示的是损失函数对第j个类别的参数的偏导。所以上面的公式还只是一个类别的偏导公式,我们需要求出所有类别的偏导公式。
实际上,softmax回归中对参数的最优化求解通常不只一个,每当求得一个优化参数时,如果将这个参数的每一项都减掉同一个数,其得到的损失函数值也是一样的。这说明这个参数不是唯一解。用数学公式证明过程如下所示:
这里写图片描述   
那这个到底是什么原因呢?从宏观上可以这么理解,因为此时的损失函数不是严格非凸的,也就是说在局部最小值点附近是一个“平坦”的,所以在这个参数附近的值都是一样的了。那么怎样避免这个问题呢?其实加入正则项就可以解决(比如说,用牛顿法求解时,hession矩阵如果没有加入规则项,就有可能不是可逆的从而导致了刚才的情况,如果加入了规则项后该hession矩阵就不会不可逆了),加入规则项后的损失函数表达式如下:
这里写图片描述   
这个时候的偏导函数表达式如下所示:
这里写图片描述   
接下来剩下的问题就是用数学优化的方法来求解了。

1.5 HK算法

HK算法思想很朴实,就是在最小均方误差准则下求得权矢量。
他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。

1.5.1 关于收敛条件的判决:

对于误差矢量:e=x*w-b
若e>0 则继续迭代
若e=0 则停止迭代,得到权矢量
若e<0 则停止迭代,样本是非线性可分得,
若e有的分量大于0,有的分量小于0 ,则在各分量都变成零,或者停止由负值转变成正值时,停机。

1.6 MLP多层感知器

多层感知器的特征:
1、网络中每个神经元包含了一个可微的非线性激活函数
2、网络中包含了一个或多个隐藏在输入和输出神经节点之间的层
3、网络表现出高度的连接性,其强度是由网络的突触权重所决定
要点:
反向传播法
批量学习:多个样例构成一个回合,代价函数是由平均误差能量来定义的,能够精确估计梯度向量。
在线学习:代价函数是由全体瞬时误差能量,容易执行,不容易陷入局部极值点,存储空间少,速度要慢。
机器学习中常见误差:
1、逼近误差:这是给定训练样本的固定大小N时,由训练神经网络或者机器学习所招致的误差
2、估计误差:用以前没有出现过的数据测试其性能所招致的误差
3、最优化误差:在给定计算时间下,训练机器的计算精确度所引起的

这篇博文是个人的学习笔记,内容许多来源于网络(包括CSDN、博客园及百度百科等),博主主要做了些微不足道的整理工作。由于在做笔记的时候没有注明来源,所以如果有作者看到上述文字中有自己的原创内容,请私信本人修改或注明来源,非常感谢>_<

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《机器学习学习笔记.pdf》是一本关于机器学习的学习笔记的电子书,其内容涵盖了机器学习的基本概念、算法原理和实践应用等方面。 该电子书的主要内容包括但不限于以下几个方面: 1. 机器学习基础:介绍了机器学习的基本概念、发展历史和核心原理,帮助读者建立起对机器学习的整体认识和理解。 2. 机器学习算法:详细介绍了常见的机器学习算法,包括监督学习算法(如线性回归、逻辑回归、决策树、支持向量机等)、无监督学习算法(如聚类算法、降维算法等)和强化学习算法等,使读者能够了解和掌握不同类型的机器学习算法及其应用场景。 3. 机器学习实践:讲解了机器学习的实践方法和流程,涵盖了数据预处理、特征工程、模型选择和评估等方面的内容,帮助读者掌握如何在实际问题中应用机器学习技术。 4. 应用案例:通过实际案例的介绍和分析,展示了机器学习在自然语言处理、计算机视觉、推荐系统等领域的应用,激发读者对机器学习在实际问题中的应用的兴趣和思考能力。 通过阅读《机器学习学习笔记.pdf》,读者可以系统地学习机器学习的基础知识和算法原理,了解机器学习的应用场景和实践方法,并通过实际案例的分析加深对机器学习技术的理解。这本电子书可以作为机器学习初学者的入门学习资料,也适合有一定机器学习基础的读者作为参考和进一步学习的资料。希望通过这本电子书的阅读,读者能够理解和掌握机器学习的相关知识,为未来在机器学习领域的学习和研究打下坚实的基础。 ### 回答2: 《机器学习学习笔记.pdf》是一本介绍机器学习的学习资料。机器学习是一种通过利用数据来训练计算机算法的方法,使其能够自动地从数据中学习和提高性能。这本学习笔记涵盖了机器学习的基本概念、原理和方法,适合初学者和对机器学习感兴趣的读者。 首先,学习笔记机器学习的基本概念入手,包括机器学习的定义、应用领域以及机器学习的三个主要任务:监督学习、无监督学习和强化学习。然后,详细介绍了机器学习的基本原理,如训练集、测试集、特征选择和模型评估等。此外,学习笔记还介绍了几种常见的机器学习算法,如决策树、支持向量机和深度学习等。 除了理论知识,学习笔记还提供了实践案例和代码示例,帮助读者更好地理解和应用机器学习算法。读者可以通过实践案例来掌握机器学习算法的具体应用,并且可以利用代码示例进行实际编程实践。同时,学习笔记还讨论了机器学习的一些挑战和未来的发展方向,如数据质量、模型解释性和自动化机器学习等。 总的来说,《机器学习学习笔记.pdf》是一本全面介绍机器学习的学习资料。它结合理论和实践,旨在帮助读者建立对机器学习的基本理解,并具备在实际问题中应用机器学习算法的能力。无论是初学者还是有一定机器学习基础的读者,都可以从中获得有益的知识和经验。 ### 回答3: 《机器学习学习笔记.pdf》是一本关于机器学习的学习笔记文档。机器学习是人工智能领域的重要分支,它研究如何使计算机系统自动从数据中学习和改进,以完成特定任务。这本学习笔记以简洁明了的方式介绍了机器学习的基本概念、算法和实践应用。 笔记中首先介绍了机器学习的基础知识,包括监督学习、无监督学习和强化学习等不同的学习类型。然后详细讲解了常用的机器学习算法,如线性回归、逻辑回归、决策树、支持向量机等。每种算法都给出了清晰的定义和示例,并详细解释了算法的原理和应用场景。 此外,《机器学习学习笔记.pdf》还包括了机器学习的实践应用和案例分析。它介绍了如何通过Python等编程语言和机器学习库进行实际的机器学习项目开发,包括数据预处理、特征工程、模型训练和评估等环节。对于初学者来说,这部分内容非常有价值,可以帮助他们快速进入实际应用的阶段。 总结来说,《机器学习学习笔记.pdf》是一本很好的机器学习入门教材,它详细介绍了机器学习的基本概念和常用算法,并提供了实际项目的实践指导。无论是对于想要了解机器学习基础知识的初学者,还是对于已经有一定机器学习经验的开发者来说,这本学习笔记都是一本值得阅读和参考的资料。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值