斯坦福机器学习笔记-Introduction
机器学习定义
关于机器学习有数种定义。
- Arthur Samuel described it as the field of study that gives computers the ability to learn without being explicitly programmed.
- Tom Mitchell provides a more modern definition: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improces with experience E.
比如,象棋游戏
- E : 进行多次象棋对战的经验
- T:进行象棋对战
- P:程序进行下次对战胜利的概率
机器学习被分为两类,监督学习和无监督学习
监督学习
维基百科定义
监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
即对于监督学习来说,训练数据,每个输入都存在相应的正确答案。算法通过训练数据训练,预测新数据。比如房价预测问题中,训练数据有特征和房价组成。
在监督式机器学习中,如果预测结果是连续值,则属于回归问题,比如房价预测问题。如果预测结果为离散值,则属于分类问题,比如肿瘤性质判定问题
回归
比如对于房价预测问题,假定我们需要通过房子面积来预测房价问题。我们则需要收集大量的数据有面积+房价组成。那么面积就是特征,房价就是输出值。首先该房价预测问题不仅包含特征即房子面积,还包括相应的价格,所以这是监督学习。又因为输出值房价是连续值,所以是个回归问题。
分类
比如我们需要对肿瘤的性质进行判定,假定0代表良性,1代表恶性。我们收集了大量的医学肿瘤数据,包含肿瘤的大小以及肿瘤的性质即良性还是恶性。我们的任务就是对新病人的肿瘤性质进行判定,因为输出值为离散值,所以这是一个分类问题。当然,在分类问题中,有时输出值也会超过两种,比如胸部肿瘤可能有三种类型,所以我们需要输出离散值0(良性), 1(癌症类型1),2(癌症类型2), 3(癌症类型3)。
在上例中,只使用了肿瘤大小一个特征来预测肿瘤是良性还是恶性。在其他机器学习问题中,特征不止一个,比如现在不仅知道肿瘤大小,还知道病人年龄,那么现在数据图如下所示,所以学习算法就是需要找到一条线,将恶性肿瘤和良性肿瘤分开。
无监督学习
在监督学习中,输入数据都有相应的标签而无监督学习即在我们不了解真实结果的情况下,从数据中推导出数据结构的算法。下图展示了监督学习和无监督学习数据的区别
对于给定的数据集,无监督学习算法可能会根据结构将其分为不同的簇,将数据分为不同簇的无监督学习算法称为聚类算法,比如下图所示
新闻分类
Google News每天会收集成千上万的网络上的新闻,然后将其分组,组成一个个新闻专题。如图中所示,红框中是有关BP石油泄漏的报道, 其中包含着各个关于BP石油泄漏的新闻。
基因分类
比如在基因组学中,给定一组不同的个体,对于每个个体,检测他们是否拥有某个特定基因,即有多少基因显现出来,也就是说特定基因的表达程度,通过聚类算法把他们划分为不同的类型。
还有其他许多例子,比如计算机集群组织,社交网络分析,市场划分以及鸡尾酒会声音问题,详细说明可以看视频unsupervised-learning
参考
coursera-unsupervised-learning(https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning)