1:什么是ML
学习是人类具有的一种重要智能行为,那什么是学习呢??
一个学习系统总是由学习和环境两部分组成。由环境(如书本或教师)提供信息,学习部分则实现信息转换,用能够理解的形式记忆下来,并从中获取有用的信息。重点在于信息转换和获取有用信息啊,比如大家使用的教材都是一样的,但是不同的人却有不同的学习结果。
在学习系统中有一个基本的假设:在学习过程中,学生(学习部分)使用的推理越少,他对教师(环境)的依赖就越大,教师的负担就越重(需要的数据就越多)。因此学习策略的分类标准就是根据学生实现信息转换所需的推理多少和难易程度来分类的, 主要分为以下几类:
- 机械学习--死记硬背
- 示教学习 (Learning from instruction)
- 演绎学习 (Learning by deduction)
- 类比学习 (Learning by analogy)
- 基于解释的学习 (Explanation-based learning, EBL)
- 归纳学习 (Learning from induction)
ML(Machine Learning, 机器学习):
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,是指机器从一堆数据中自动or半自动的学习出其中的规律,然后根据这些规律来处理未知的数据。比如常见的文本分类、聚类、预测等。机器学习是人工智能的核心,是让电脑来模拟人类的自主学习模式,是计算机具有智能水平的根本途径。
希望有一天能够看到一个真正意义上的Robot呀...
Machine Learning is the study of computer algorithms that improve automatically through experience--Tom Mitchell
一个更加标准化的公式定义:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
数据为王
机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。在ML中,数据(Experience、Data)才是基石啊,巧妇难为无米之炊嘛~~~
根据使用训练数据的不同形式,ML的学习分为:
(1) 监督学习:在学习过程中提供对错指示,训练数据都是人工处理过的,比如文本分类使用的训练数据都是事先标注好的数据。
(2) 非监督学习: 所有数据都是原始数据,并没有添加人工知识,通过循环和递减运算来减小误差。
(3) 半监督学习:折中方案,首先标注一部分数据,然后训练监督学习模型对剩下的数据进行自动标注,然后再让标注人员人工review标注结果,从而得到大量的标注数据。
“统计”思想将在你学习“机器学习”相关理念时无时无刻不伴随,相关而不是因果的概念将是支撑机器学习能够工作的核心概念。
一般的机器学习模型至少考虑两个量:一个是因变量,也就是我们希望预测的结果;另一个是自变量,是周围的环境或者数据。比如把所有的自变量和因变量输入,然后让计算机帮我生成一个模型来学习其中隐藏的规律。但是由于目前种种原因,“模型”不是计算机学出来的,是人们事先指定的,机器学习只是去学习其中的未知参数,因此针对不同的任务需要才有了现在的各种复杂的数学模型。
一个完整的机器学习过程如下:
- 首先,我们需要在计算机中存储历史的数据。
- 接着,我们将这些数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被用来对新数据进行预测,一般称之为“模型”。
- 最后,对新数据 的预测过程在机器学习中叫做“预测”。
“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”。机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。
2:参考书目
“书不是最重要的,重要的是你的决心”
领域大牛:Andrew Ng(百度)、Geoffrey Hinton(Google)、Yann LeCun(Facebook)
1: 机器学习引论
2: Andrew Ng 的机器学习课程 https://www.coursera.org/learn/machine-learning
3:从机器学习谈起 http://blog.jobbole.com/83400/