机器学习基本概念知识汇

最新推荐文章于 2024-05-11 17:47:03 发布

岳飞传

最新推荐文章于 2024-05-11 17:47:03 发布

阅读量1.3w

点赞数 23

分类专栏：机器学习

本文链接：https://blog.csdn.net/u010177286/article/details/79304778

版权

背景

本文是前段时间打算转行人工智能方向时，总结的关于机器学习，摄影测量/及研究生课题等一些基本内容，算是面试前的一个突击学习，今日整理一下，以备日后查阅。
本文是集各位网友的博客收集总结而来，由于学习过程中记录不全，只列出了部分链接，未列出的部分请各位谅解。

mark 上海杨浦区佳木斯路星巴克 2018.02.10

机器学习

1. 基本概念

机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。
相对于传统的计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去即可。机器学习根本不接受你输入的指令，相反，它只接受你输入的数据!也就是说它某种意义上具有了我们人处理事情的能力。

2. 机器学习方法

机器学习分为：监督学习，无监督学习，半监督学习，强化学习

监督学习：

监督学习:从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。
监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）

(1) regression：Y是实数vector。回归问题，就是拟合(X，Y)的一条曲线，使得下式cost function L最小。

(2) classification：Y是一个finite number，可以看做类标号。分类问题需要首先给定有label的数据训练分类器，故属于有监督学习过程。分类问题中，cost function L(X,Y)是X属于类Y的概率的负对数。
，其中fi(X)=P(Y=i | X);

属于监督式学习的算法有：回归模型，决策树，随机森林，K邻近算法，逻辑回归等

无监督学习

无监督学习：在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。

无监督学习的目的是学习一个function f，使它可以描述给定数据的位置分布P(Z)。包括两种：density estimation & clustering.

density estimation就是密度估计，估计该数据在任意位置的分布密度
clustering就是聚类，将Z聚集几类（如K-Means），或者给出一个样本属于每一类的概率。由于不需要事先根据训练数据去train聚类器，故属于无监督学习。

属于无监督式学习的算法有：关联规则，K-means聚类算法等。

解释1：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。
解释2：非监督学习目标不是告诉计算机怎么做，而是让它（计算机）自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类，而是在成功时，采用某种形式的激励制度。需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是为了产生一个分类系统，而是做出最大回报的决定，这种思路很好的概括了现实世界，agent可以对正确的行为做出激励，而对错误行为做出惩罚。

无监督学习的方法分为两大类：
(1) 一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。
(2) 另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。

利用聚类结果，可以提取数据集中隐藏信息，对未来数据进行分类和预测。应用于数据挖掘，模式识别，图像处理等。

属于无监督式学习的算法有：关联规则，K-means聚类算法等。

PCA和很多deep learning算法都属于无监督学习。

半监督式学习：

半监督学习：在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。
应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。

强化学习：

强化学习：在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习（Temporal difference learning）

机器学习中分类与聚类的本质区别

机器学习中有两类的大问题，一个是分类，一个是聚类。

聚类

聚类的相关的一些概念如下

聚类：指事先并不知道任何样本的类别标号，希望通过某种算法来把一组未知类别的样本划分成若干类别，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，这在机器学习中被称作 unsupervised learning （无监督学习）
通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。
聚类的目标：组内的对象相互之间时相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性越大，组间差别越大，聚类就越好。
与分类技术不同，在机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能的小，而不同类别上的对象的差别尽可能的大。因此，聚类的意义就在于将观察到的内容组织成类分层结构，把类似的事物组织在一起。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的关系。

分类方法：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
[参考链接]https://www.cnblogs.com/batys/p/3274138.html

分类与聚类的比较

• 聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
• 在分类中，对于目

最低0.47元/天解锁文章

岳飞传

关注

23
点赞
踩
154

收藏

觉得还不错? 一键收藏
1
评论
机器学习基本概念知识汇

目录目录背景机器学习基本概念机器学习方法监督学习无监督学习半监督式学习强化学习机器学习中分类与聚类的本质区别分类聚类分类与聚类的比较机器学习算法分类回归算法基于实例的算法决策树学习贝叶斯方法基于核的算法聚类算法降低维度算法关联规则学习集成算法人工神经网络机器学习算法比较机器学习算法应用光学字符识别基本概念基本思想基本识别...
复制链接

扫一扫