机器学习基础（三）_计算机效用函数与成本函数区别-CSDN博客

本文链接：https://blog.csdn.net/QKA_zkj/article/details/84590490

本文介绍了机器学习的基础知识，重点关注学习算法的概念。通过 Mitchell(1997) 的定义，阐述了学习算法如何从经验中学习。文章详细讲解了监督学习、无监督学习、半监督学习和弱监督学习这四种主要的学习方式，并提供了每种学习方式的典型应用场景和算法示例。此外，还介绍了监督学习的一般步骤，包括数据集创建、训练、验证和测试。最后，提到了强化学习的特点和数据集的表示方法。

摘要由CSDN通过智能技术生成

机器学习基础

学习算法

机器学习算法是一种能够从数据中学习的算法。那所谓的学习是什么意思呢？Mitchell(1997)提供了一个简洁的定义：对于某类任务和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。原文如下：

A computer program is said to learn from experience E with respect to someclass of tasks T and performance measure P, if its performance at tasks in T, asmeasured by P, improves with experience E.

经验E

大部分机器学习算法可以被理解为在整个数据集(dataset)上获取经验。数据集指得是很多样本组成的集合。根据数据类型的不同，对一个问题的建模方式有所不同。依据不同的学习方式和输入数据，机器学习主要分为以下四种学习方式：

监督(supervised)学习：

监督学习是使用已知正确答案的示例样本来训练网络。已知数据和其一一对应的标签(label或目标(target)，训练一个映射关系，将输入数据映射到标签的过程。
监督式学习的常见应用场景如分类问题和回归问题。
常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）

无监督式(unsupervised)学习：

在无监督式学习中，数据并不被特别标识，适用于具有数据集但无标签的情况。学习模型是为了推断出数据中的一些内在结构。
常见的应用场景包括关联规则的学习以及聚类等。
常见算法包括Apriori算法以及k-Means算法。

半监督式学习：

在此学习方式下，输入数据部分被标记，部分没有被标记，例如医疗影像数据，通常可以用聚类假设(duster assumption)和流形假设(manifold assumption)对数据作处理(无论聚类假设还是流形假设，其本质都是"相似的样本拥有相似的输出" 这个基本假设)，这种学习模型可以用来进行预测。
应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，通过对已标记数据建模，在此基础上，对未标记数据进行预测。
常见算法如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM）等。

弱监督学习：

弱监督学习可以看做是有多个标记的数据集合，次集合可以是空集，单个元素，或包含多种情况（没有标记，有一个标记，和有多个标记）的多个元素。
数据集的标签是不可靠的，这里的不可靠可以是标记不正确，多种标记，标记不充分，局部标记等。
已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少，比如相对于分割的标签来说，分类的标签就是弱标签。
举例，告诉一张包含气球的图片，需要得出气球在图片中的位置及气球和背景的分割线，这就是已知弱标签学习强标签的问题。

大致来说，无监督学习涉及观察随机向量 $x$ 的好几个样本，试图显式或隐式学习出概率分布 $p (x)$ ，或者是该分布的一些有意思的性质；而监督学习包含观察随机向量 $x$