机器学习期末复习

线性回归

1.原理:
线性回归就是能够用一个直线较为精确地描述数据之间的关系,这样当出现新的数据的时候,就能够预测出一个简单的值。
在这里插入图片描述

线性回归的模型形如:
  f( x )= w ∗ x +b
    
2.优缺点:
 优点:
    (1)思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效;
    (2)是许多强大的非线性模型的基础。
    (3)线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析。
    (4)蕴含机器学习中的很多重要思想。
    (5)能解决回归问题。
  缺点:
    (1)对于非线性数据或者数据特征间具有相关性多项式回归难以建模.
    (2)难以很好地表达高度复杂的数据。

决策树

1.原理:
决策树是一个贪心算法,即在特性空间上执行递归的二元分割,决策树由节点和有向边组成。内部节点表示一个特征或者属性;叶子节点表示一个分类。使用决策树进行分类时,将实例分配到叶节点的类中,该叶节点所属的类就是该节点的分类。

2.优缺点:
决策树的优点
相对于其他数据挖掘算法,决策树在以下几个方面拥有优势:
(1)决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。
(2)对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
(3) 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
(4) 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
(5) 对缺失值不敏感
(6)可以处理不相关特征数据
(7)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

决策树的缺点
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多预处理的工作。
3)当类别太多时,错误可能就会增加的比较快。
4)一般的算法分类的时候,只是根据一个字段来分类。
5)在处理特征关联性比较强的数据时表现得不是太好

贝叶斯

1.原理
在这里插入图片描述在这里插入图片描述

2.优缺点
朴素贝叶斯的主要优点有:
1)朴素贝叶斯模型有稳定的分类效率。
2)对小规模的数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练。
3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。
朴素贝叶斯的主要缺点有:   
1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
4)对输入数据的表达形式很敏感。

KNN(k值邻近法)

1.原理:
给定一个训练数据集,对于新的输人实例,在训练集中找到与该实例最邻近的k个实例。这k个实例的多数属于某个类别,则该输人实例就划分为这个类别.
2.优缺点:
算法优点:
    (1)简单,易于理解,易于实现,无需估计参数。
    (2)训练时间为零。它没有显示的训练,不像其它有监督的算法会用训练集train一个模型(也就是拟合一个函数),然后验证集或测试集用该模型分类。KNN只是把样本保存起来,收到测试数据时再处理,所以KNN训练时间为零。
    (3)KNN可以处理分类问题,同时天然可以处理多分类问题,适合对稀有事件进行分类。
    (4)特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好。
    (5)KNN还可以处理回归问题,也就是预测。
    (6)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感。

算法缺点:
    (1)计算量太大,尤其是特征数非常多的时候。每一个待分类文本都要计算它到全体已知样本的距离,才能得到它的第K个最近邻点。
    (2)可理解性差,无法给出像决策树那样的规则。
    (3)是慵懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢。
    (4)样本不平衡的时候,对稀有类别的预测准确率低。当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
    (5)对训练数据依赖度特别大,对训练数据的容错性太差。如果训练数据集中,有一两个数据是错误的,刚刚好又在需要分类的数值的旁边,这样就会直接导致预测的数据的不准确。

神经网络

1.原理:
受生物学的启发,人工神经网络是由一系列简单的单元相互紧密联系构成的,每个单元有一定数量的实数输人和唯一的实数输出。神经网络的一个重要的用途就是接受和处理传感器产生的复杂的输人并进行自适应性的学习二人工神经网络算法模拟生物神经网络,是一种模式匹配算法,通常用于解决分类和回归问题。
2.优缺点:
优点——
神经网络有很强的非线性拟du合能力zhi,可映射任dao意复杂的非线性关系,而且学zhuan习规则shu简单,便于计算机实现。具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力,因此有很大的应用市场。
缺点——
(1)最严重的问题是没能力来解释自己的推理过程和推理依据。
(2)不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作。
(3)把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息。
(4)理论和学习算法还有待于进一步完善和提高。

深度学习

1.原理:
因此深度学习的完整工作原理如下:
对神经网络的权重随机赋值,由于是对输入数据进行随机的变换,因此跟预期值可能差距很大,相应地,损失值也很高;
根据损失值,利用反向传播算法来微调神经网络每层的参数,从而较低损失值;
根据调整的参数继续计算预测值,并计算预测值和预期值的差距,即损失值;
重复步骤2,3,直到整个网络的损失值达到最小,即算法收敛。

2.优缺点:
优点有以下几点:1.相比于传统的视觉和语音识别方面有了很大的提高;2.具有较好的transfer learning性质。

缺点如下:1.模型正确性验证复杂且麻烦;2. 某些深度网络不仅训练而且线上部署也需要GPU支持

强化学习

1.原理:
强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数 。
2.优缺点:
不晓得

  • 6
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值