机器学习基础(三)

本文介绍了机器学习的基础知识,重点关注学习算法的概念。通过 Mitchell(1997) 的定义,阐述了学习算法如何从经验中学习。文章详细讲解了监督学习、无监督学习、半监督学习和弱监督学习这四种主要的学习方式,并提供了每种学习方式的典型应用场景和算法示例。此外,还介绍了监督学习的一般步骤,包括数据集创建、训练、验证和测试。最后,提到了强化学习的特点和数据集的表示方法。
摘要由CSDN通过智能技术生成

机器学习基础

学习算法

  机器学习算法是一种能够从数据中学习的算法。那所谓的学习是什么意思呢?Mitchell(1997)提供了一个简洁的定义:对于某类任务和性能度量P, 一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。原文如下:

A computer program is said to learn from experience E with respect to someclass of tasks T and performance measure P, if its performance at tasks in T, asmeasured by P, improves with experience E.

经验E

  大部分机器学习算法可以被理解为在整个数据集(dataset)上获取经验。数据集指得是很多样本组成的集合。根据数据类型的不同,对一个问题的建模方式有所不同。依据不同的学习方式和输入数据,机器学习主要分为以下四种学习方式:

监督(supervised)学习

  1. 监督学习是使用已知正确答案的示例样本来训练网络。已知数据和其一一对应的标签(label或目标(target),训练一个映射关系,将输入数据映射到标签的过程。
  2. 监督式学习的常见应用场景如分类问题和回归问题。
  3. 常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)

无监督式(unsupervised)学习

  1. 在无监督式学习中,数据并不被特别标识,适用于具有数据集但无标签的情况。学习模型是为了推断出数据中的一些内在结构。
  2. 常见的应用场景包括关联规则的学习以及聚类等。
  3. 常见算法包括Apriori算法以及k-Means算法。

半监督式学习

  1. 在此学习方式下,输入数据部分被标记,部分没有被标记,例如医疗影像数据,通常可以用聚类假设(duster assumption)和流形假设(manifold assumption)对数据作处理(无论聚类假设还是流形假设,其本质都是"相似的样本拥有相似的输出" 这个基本假设),这种学习模型可以用来进行预测。
  2. 应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。
  3. 常见算法如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。

弱监督学习

  1. 弱监督学习可以看做是有多个标记的数据集合,次集合可以是空集,单个元素,或包含多种情况(没有标记,有一个标记,和有多个标记)的多个元素。
  2. 数据集的标签是不可靠的,这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。
  3. 已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。
  4. 举例,告诉一张包含气球的图片,需要得出气球在图片中的位置及气球和背景的分割线,这就是已知弱标签学习强标签的问题。

  大致来说,无监督学习涉及观察随机向量 x x x 的好几个样本,试图显式或隐式学习出概率分布 p ( x ) p(x) p(x) ,或者是该分布的一些有意思的性质;而监督学习包含观察随机向量 x x x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值