机器学习:数据驱动的科学

标签: python 机器学习 数据 深度学习
1162人阅读 评论(0) 收藏 举报
分类:

引言:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。
本文选自《深入浅出深度学习:原理剖析与Python实践》。

  机器学习,也被称为统计机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测的一门学科。
  传统上,如果想让计算机工作,我们会编写一段指令,然后让计算机遵照这个指令一步一步执行下去。而机器学习则是采用另一种解决问题的思路,机器学习解决问题的方式不是通过输入指令逻辑,而是通过输入的数据,也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。
  机器学习最基本的做法是使用算法来解析数据,从数据中学习到规律,并掌握这种规律,然后对真实世界中的事件做出决策或预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习的核心是使用大量的数据来训练,通过各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域,在模式识别和计算机学习理论的研究中逐渐发展,并最终形成一门新的学科。与人工智能类似,机器学习也是一个跨学科的领域,涉及多个基础学科,包括统计学、线性代数和数值计算等。
  机器学习是基于训练数据构建统计模型,从而使计算机具有对新数据进行预测和分析的能力,机器学习方法按其实现的目标不同,可以分为:监督学习、无监督学习和强化学习。
  监督学习(Supervised Learning):监督学习使用带有标签的训练数据集进行训练,输入的训练数据由物体的特征向量(输入)和物体的标签(输出)两部分构成,其中,若输出的标签是一个连续的值,则称为回归监督学习;若输出标签是一个离散的值,则称为分类监督学习。
  监督学习涉及两个方面的工作:首先,根据提供的训练数据,选择一种合适的模型进行训练,直至模型的训练收敛。常见的监督学习模型包括:Logistic回归、决策树、SVM(Support Vector Machines,支持向量机)、KNN、朴素贝叶斯等。下图展示的是一个水果分类的例子,每一个样本数据的输入是由物体的特征构成的特征向量,如物体的颜色、大小、形状等,输出的是物体的类别,如苹果、葡萄、香蕉等。
          图片描述
监督学习模型训练,算法利用训练数据提供的特征信息,如颜色、大小、形状等,构建概率模型p(y|x)或非概率模型y=f(x)

  其次,当模型训练完毕,就可以把新的输入数据代入模型,模型将根据新数据的特征信息,找出最符合这种特征的输出结果,其过程如下。
          图片描述
                          模型预测

  无监督学习(Unsupervised learning):无监督学习的训练样本数据没有任何的标签和输出,其目的是对原始数据结构进行深入分析,找出数据间存在的规律与关系。典型的无监督学习任务包括:聚类、降维、特征提取等。
     图片描述
                 两种常见的无监督学习,(a)数据聚类,(b)数据降维

  虽然监督学习的准确率更高,但在现实生活中,我们获取的大量数据一般是没有标签数据的,因此,我们不得不诉诸于无监督学习,但传统的无监督学习方法在特征提取上并不令人满意,而深度学习则被证明具有强大的无监督学习能力,特别是在计算机视觉领域,运用深度学习技术所达到的效果更是要远优于传统的机器学习。
  强化学习(reinforcement learning):强化学习也称为增强学习,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
  强化学习与前面的监督学习、无监督学习之间的区别在于,它并不需要出现正确的输入输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索未知的领域和遵从现有知识之间找到平衡,它的学习过程是一个从实际环境中不断学习积累,不断进化的过程。因此,强化学习更接近生物学习的本质,也是有望让机器获得通用智能的一项技术。

      图片描述
             DeepMind利用强化学习技术在迷宫游戏中执行搜索任务(图片摘自网络)

  本文选自《深入浅出深度学习:原理剖析与Python实践》,点此链接可在博文视点官网查看此书。
                       图片描述
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                         图片描述

查看评论

[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程

图像识别任务面临着诸多挑战, 这使得它自计算机视觉领域1966年诞生以来就成为一个十分活跃的子领域. 本文将简要讨论图像识别问题的挑战以及为了应对这些挑战而使用的数据驱动过程. 1. 图像分类问题...
  • Hao_Zhang_Vision
  • Hao_Zhang_Vision
  • 2016-09-25 22:05:12
  • 1108

什么叫做「数据驱动方法」

在《智能时代》一书中提到了「数据驱动的方法」,我来谈一下我的理解。 人类提升对世界的认识能力的方法就是从现实世界中发现规律,从认识论的角度来说就是从感性认识到理性认识。那么规律如何描述呢,从自然科学...
  • dawningblue
  • dawningblue
  • 2017-07-14 16:10:40
  • 5477

【智能助理】智能助理:数据驱动 + 深度学习实现人工智能新突破

本文根据胡一川在神策 2017 数据驱动大会人工智能论坛演讲整理所得。主要分享了智能助理产品的发展,以及深度学习在智能助理中的应用。下面是本次分享的详细内容。 什么是智能助理 随着智能手机和移...
  • np4rHI455vg29y2
  • np4rHI455vg29y2
  • 2017-11-08 00:00:00
  • 256

展望:模型驱动的深度学习

来源:《国家科学评论》概要:近年来,深度学习在人工智能领域一系列困难问题上取得了突破性成功应用。模型驱动的深度学习方法近年来,深度学习在人工智能领域一系列困难问题上取得了突破性成功应用。例如用于人脸识...
  • cf2SudS8x8F0v
  • cf2SudS8x8F0v
  • 2018-01-23 00:00:00
  • 166

如何把PyCharm改造成支持科学计算(机器学习)的Python IDE

PyCharm并不是专为科学计算开发的IDE,而是为WEB开发设计的。 网上也并没有关于如何将PyCharm改造成科学计算(机器学习)专用IDE的博客。本文作为网上的首个博客,提供了改造PyCharm...
  • mikejay0520
  • mikejay0520
  • 2015-03-23 22:41:15
  • 9270

做一个全面的机器学习、自然语言处理工程师。

不管以后工作在哪,工作如何,都要明白自身的不足,按照自己的学习计划一步步走下去。...
  • qq_16722621
  • qq_16722621
  • 2017-09-10 12:43:18
  • 118

斯坦福李飞飞-深度学习与计算机视觉 数据驱动的图像分类方式:K最近邻与线性分类器

图像分类是最基础的challenges - 拍摄角度 - 亮度 - 形变 - 遮蔽一部分 - 背景杂斑数据驱动 收集数据 用机器学习的方法训练数据 用得到的模型进行预测 近邻分类器...
  • zuicong5568
  • zuicong5568
  • 2017-10-10 12:57:14
  • 172

微软邓力:<em>驱动</em>大<em>数据</em>人工智能多种应用的三类<em>深度学习</em>模式

微软邓力:<em>驱动</em>大<em>数据</em>人工智能多种应用的三类<em>深度学习</em>模式 2016-08-29 上传大小:6.43MB <em>深度学习</em>无监督学习 2016中国人工智能大会(CCAI 2016),微软人工智能首席科学...
  • 2018年04月08日 00:00

数据驱动与模型驱动

今天看到一篇大数据GIS的文章,文章中讲到了数据驱动
  • yaoxiaochuang
  • yaoxiaochuang
  • 2014-11-19 14:28:31
  • 2423

通用机器学习流程与问题解决架构模板

原文地址:Approaching (Almost) Any Machine Learning Problem 原文翻译与校对:@姜范波 && @黄文畅 && 寒小阳 时间:2016年10...
  • Real_Myth
  • Real_Myth
  • 2016-10-26 10:12:35
  • 767
    个人资料
    持之以恒
    等级:
    访问量: 400万+
    积分: 5万+
    排名: 56
    博客专栏
    文章存档
    最新评论