干货|机器学习开端综述(入门必看系列)

1.引言

本来这系列文章是准备各个击破讲解下传统机器学习常用算法,但是突然发现没有对机器学习算法做一个整体的介绍,本篇机器学习开端综述带大家过一遍传统机器学习算法,基本思想和用途,本文谨代表我个人的观点和感悟,希望对大家有所帮助,欢迎大家一起讨论与学习!

2.机器学习算法概述

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

从机器学习训练数据是否有标记的角度来看,机器学习算法可分为:

1.监督式学习 (Supervised Learning)
2.非监督式学习(Unsupervised Learning)
3.半监督学习

2.1 什么是监督学习?
我们来看看维基百科中给出的定义:

监督式学习,是一个机器学习中的方法,可以由训练数据中学到或建立一个模式(函数 / learning model),并依此模式预测新的数据。训练数据是由输入数据(通常是向量)和预期输出label所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

一句话总结:监督学习的数据有对应的标签结果,也就是训练数据不仅仅有特征组成,,而且每一个数据样本都包含一个准确的输出值。

2.1.1 监督学习的分类:

监 督 学 习 : { 回 归 ( R e g r e s s i o n ) 分 类 ( C l a s s i f i c a t i o n ) 监督学习:\begin{cases} 回归(Regression)\\ 分类(Classification)& \end{cases} :{RegressionClassification

回归:比如我们想通过给定的一个房子的面积来预测这个房子在市场中的价格,这里的房子的面积就是特征, 房子的价格就是一个输出值,我们的预测输出数据房价可以看做是连续的值,,所以这个问题是一个回归问题。

分类:分类问题还是比较好理解的,我们的目标应该是要对数据进行分类. 现在我们的数据是有关乳腺癌的医学数据,它包含了肿瘤的大小以及该肿瘤是良性的还是恶性的,给定一个肿瘤的大小来进行数据预测分类。

这里的预测结果如果是离散值(很多时候是类别类型,比如邮件分类问题中的垃圾邮件/普通邮件,比如用户会/不会购买某商品),那么我们把它叫做分类问题(classification problem);如果预测结果是连续值(比如房价,股票价格等等),那么我们把它叫做回归问题(regression problem)。

有一系列的机器学习算法是用以解决监督学习问题的,比如最经典的用于分类问题的朴素贝叶斯、逻辑回归、支持向量机SVM等等;比如说用于回归问题的线性回归等等。

2.2 什么是无监督学习?

在无监督学习中, 我们的数据并没有给出特定的标签, 例如上面例子中的房价或者是良性还是恶性,我们目标也从预测某个值或者某个分类变成了寻找数据集中通用的规则。

从下图我们可以直观的感受到监督学习和无监督学习在数据集上的区别:
在这里插入图片描述
从上图我们可以看出,监督学习的数据有对应的标签分类,而无监督学习的数据只有数据,我们要自己找出数据之间的关联。

2.2.1 无监督学习举例

典型的新闻分类问题:

这里举的是Google News的例子。Google News搜集网上的新闻,并且根据新闻的主题将新闻分成许多簇, 然后将在同一个簇的新闻放在一起。当打开一个簇里面的链接后,里面包含的都是与其相关的其他网页。

2.3 什么是半监督学习?

这类问题给出的训练数据,有一部分有标签,有一部分没有标签。我们想学习出数据组织结构的同时,也能做相应的预测。此类问题相对应的机器学习算法有自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)等。

3.机器学习算法总结

总体说来,从训练数据是否有标记最常见是前两类问题,而对应前两类问题的一些机器学习算法如下:
在这里插入图片描述
从机器学习算法思想分类来看,机器学习算法可分为:
在这里插入图片描述

4.机器学习处理流程

下面我们试着总结总结在拿到一个实际问题的时候,如果着手使用机器学习算法去解决问题,其中的一些注意点以及核心思路。主要包括以下内容:

  • 拿到数据后进行数据分析,分割训练和测试数据
  • 可视化分析数据
  • 数据特征提取
  • 选择最贴切的机器学习算法
  • 定位模型状态(过/欠拟合)以及解决方法
    在这里插入图片描述

5.过拟合的定位与解决

使用三种不同的多项式作为假设函数对数据进行拟合,,从左一和右一分别为过拟合和欠拟合:
在这里插入图片描述
针对过拟合,有几种办法可以处理:

  • 增大训练样本量
  • 减少特征的个数,可人工选择一些比较重要的特征留下
  • 正则化(Regularization)

针对欠拟合,有几种办法可以处理:

  • 调整你的特征(找更有效的特征)
  • 使用更复杂一点的模型(比如说用非线性的核函数)

6.损失函数的选择

损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越小,通常模型的性能越好,不同的模型用的损失函数一般也不一样,所以损失函数的选择对于问题的解决和优化,非常重要 。
在这里插入图片描述

7.总结

本文算是对传统机器学习方法的一个整体综述,介绍了机器学习的类别、机器学习算法、定位过/欠拟合及解决方法、损失函数优缺点等方面介绍了实际机器学习问题中的一些思路和通用方法。

后续我会分别介绍机器学习中常用算法,包括逻辑回归、决策树、随机森林算法、支持向量机SVM、朴素贝叶斯、K最近邻算法、K均值算法、Adaboost算法等,此外我也会专注ML(机器学习)、DL(深度学习)、RL(强化学习)、TL(迁移学习)、RS(推荐系统)等领域,期望跟大家一起交流学习!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值