本文个人博客地址:http://www.huweihuang.com/article/machine-learning/machine-learning-concept/
1. 机器学习的概念
1.1 Arthur Samuel的定义
机器学习是在特定的编程环境下,给予机器学习能力的领域。
1.2 Tom Mitchell的定义
机器学习是指一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。
1.3 例子
例如下棋程序经过自己与自己的下棋练习,最后棋力大增。在这个例子中:
- 经验E:程序上万次的自我练习的经验
- 任务T:自己与自己下棋
- 性能度量值P:在与一些新的对手比赛时,赢得比赛的概率
1.4 机器学习算法
- 监督学习:教计算机如何去完成任务。
- 无监督学习:让计算机自己学习完成任务。
2. 监督学习
2.1 概念
百度百科:监督学习是从标记的训练数据来推断一个功能的机器学习任务。
在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。
通俗的理解就是,通过一组已知的数据(包括输入和输出)建模,当输入为x时,预测输出值y。这个数据集由“正确答案”构成,即该数据集中对于每个x都知道了对应的y的值。
根据训练数据的输出值是连续值还是离散值,监督学习问题又分为回归问题和分类问题。
2.2 回归问题
回归问题指训练数据的输出值是连续值,可以预测一个连续的输出,一般建模函数以直线或曲线的方式表示。
例子:通过一组房子面积(输入值)与房价(输出值)的数据,从而预测当房子面积为x值,房价y是多少。
2.3 分类问题
分类问题指训练数据的输出值是离散值,预测一个离散的结果,一般建模函数以常量值或点来表示。
分类问题中的输入值(即特征值)可以为多类,例如特征值是肿瘤大小和年龄,预测值为肿瘤的良恶性。
例子:通过一组肿瘤大小与肿瘤是良性还是恶性的数据,从而预测当肿瘤大小为x时,肿瘤的性质y是良性还是恶性。
3. 无监督学习
3.1 概念
百度百科:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。
无监督学习即从没有标记的数据集中找出某种结构。
通俗的理解就是,在给定的一个数据集中,我们事先并不知道每个数据点是什么,如何处理这些数据点,即没有给算法对应的“正确答案”来回应数据集中的数据,而是由算法自行找出数据中的结构。
3.2 聚类算法
聚类算法是无监督学习算法中的一种,即在整个数据集中把具有相似特征的东西聚成一类。
3.3 例子
谷歌新闻将网络上的新闻按照某种特征(一般是根据新闻主题)进行分组,组成有关联的新闻。
社交网络关系分析:根据社交网络的通信关系分出几个社交圈子。
- 市场分类:根据顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中。
文章参考 :
吴恩达机器学习课程