关闭

机器学习:数据驱动的科学

标签: python机器学习数据深度学习
999人阅读 评论(0) 收藏 举报
分类:

引言:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。
本文选自《深入浅出深度学习:原理剖析与Python实践》。

  机器学习,也被称为统计机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测的一门学科。
  传统上,如果想让计算机工作,我们会编写一段指令,然后让计算机遵照这个指令一步一步执行下去。而机器学习则是采用另一种解决问题的思路,机器学习解决问题的方式不是通过输入指令逻辑,而是通过输入的数据,也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。
  机器学习最基本的做法是使用算法来解析数据,从数据中学习到规律,并掌握这种规律,然后对真实世界中的事件做出决策或预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习的核心是使用大量的数据来训练,通过各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域,在模式识别和计算机学习理论的研究中逐渐发展,并最终形成一门新的学科。与人工智能类似,机器学习也是一个跨学科的领域,涉及多个基础学科,包括统计学、线性代数和数值计算等。
  机器学习是基于训练数据构建统计模型,从而使计算机具有对新数据进行预测和分析的能力,机器学习方法按其实现的目标不同,可以分为:监督学习、无监督学习和强化学习。
  监督学习(Supervised Learning):监督学习使用带有标签的训练数据集进行训练,输入的训练数据由物体的特征向量(输入)和物体的标签(输出)两部分构成,其中,若输出的标签是一个连续的值,则称为回归监督学习;若输出标签是一个离散的值,则称为分类监督学习。
  监督学习涉及两个方面的工作:首先,根据提供的训练数据,选择一种合适的模型进行训练,直至模型的训练收敛。常见的监督学习模型包括:Logistic回归、决策树、SVM(Support Vector Machines,支持向量机)、KNN、朴素贝叶斯等。下图展示的是一个水果分类的例子,每一个样本数据的输入是由物体的特征构成的特征向量,如物体的颜色、大小、形状等,输出的是物体的类别,如苹果、葡萄、香蕉等。
          图片描述
监督学习模型训练,算法利用训练数据提供的特征信息,如颜色、大小、形状等,构建概率模型p(y|x)或非概率模型y=f(x)

  其次,当模型训练完毕,就可以把新的输入数据代入模型,模型将根据新数据的特征信息,找出最符合这种特征的输出结果,其过程如下。
          图片描述
                          模型预测

  无监督学习(Unsupervised learning):无监督学习的训练样本数据没有任何的标签和输出,其目的是对原始数据结构进行深入分析,找出数据间存在的规律与关系。典型的无监督学习任务包括:聚类、降维、特征提取等。
     图片描述
                 两种常见的无监督学习,(a)数据聚类,(b)数据降维

  虽然监督学习的准确率更高,但在现实生活中,我们获取的大量数据一般是没有标签数据的,因此,我们不得不诉诸于无监督学习,但传统的无监督学习方法在特征提取上并不令人满意,而深度学习则被证明具有强大的无监督学习能力,特别是在计算机视觉领域,运用深度学习技术所达到的效果更是要远优于传统的机器学习。
  强化学习(reinforcement learning):强化学习也称为增强学习,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
  强化学习与前面的监督学习、无监督学习之间的区别在于,它并不需要出现正确的输入输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索未知的领域和遵从现有知识之间找到平衡,它的学习过程是一个从实际环境中不断学习积累,不断进化的过程。因此,强化学习更接近生物学习的本质,也是有望让机器获得通用智能的一项技术。

      图片描述
             DeepMind利用强化学习技术在迷宫游戏中执行搜索任务(图片摘自网络)

  本文选自《深入浅出深度学习:原理剖析与Python实践》,点此链接可在博文视点官网查看此书。
                       图片描述
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                         图片描述

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

每周一本书之《Python大战机器学习:数据科学家的第一个小目标》

数据科学家可谓是当下炙手可热的职业,机器学习则是他们的必备技能。机器学习在大数据分析中居于核心地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。 Pyt...
  • qq646748739
  • qq646748739
  • 2017-04-20 23:58
  • 3698

中科院计算所开源Easy Machine Learning:让机器学习应用开发简单快捷

今日,中科院计算所研究员徐君在微博上宣布「中科院计算所开源了 Easy Machine Learning 系统,其通过交互式图形化界面让机器学习应用开发变得简单快捷,系统集成了数据处理、模型训练、性能...
  • LIHUINIHAO
  • LIHUINIHAO
  • 2017-06-13 16:18
  • 1350

[转]机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实 践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能...
  • heiyeshuwu
  • heiyeshuwu
  • 2015-02-04 11:21
  • 3848

机器学习:数据驱动的科学

原文链接 引言:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。 本文选自《深入浅出深度学习:原理剖析与Python实践》。 ...
  • bystarlight
  • bystarlight
  • 2017-05-31 11:44
  • 311

图灵书籍(Python机器学习经典实例.pdf及代码+数据科学入门.pdf及代码)

  • 2017-12-07 13:48
  • 37.34MB
  • 下载

Python机器学习 (数据科学与工程技术丛书)

  • 2017-11-27 16:58
  • 22.85MB
  • 下载

Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选...
  • u013550082
  • u013550082
  • 2014-11-18 15:38
  • 729

非常全面到位的介绍与源代码地址 :Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

from:  http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E...
  • han____shuai
  • han____shuai
  • 2016-02-15 23:56
  • 872

python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载

Python网页爬虫工具: Scrapy Scrapy, a fast high-level screen scraping and web crawling framework for Pytho...
  • a1b2c3d4123456
  • a1b2c3d4123456
  • 2015-11-13 13:52
  • 1076

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86...
  • oMingZi12345678
  • oMingZi12345678
  • 2016-05-02 03:58
  • 383
    个人资料
    • 访问:3854640次
    • 积分:55814
    • 等级:
    • 排名:第58名
    • 原创:1458篇
    • 转载:83篇
    • 译文:1篇
    • 评论:3784条
    博客专栏
    文章存档
    最新评论