机器学习笔记1 监督学习和无监督学习
机器学习是人工智能的核心知识,基于学习方式可以把机器学习分类为监督学习、无监督学习和强化学习三种。这里简单记录监督学习和无监督学习的定义,以及两者常见的用途和算法。
监督学习
在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。
简单地说就是老师告诉你了答案,然后你根据答案(期望的输出值)和题目(输入数据)通过分析(训练)找出规律。比如说已知一组数据:[肿瘤大小,是否是恶性肿瘤],要求预测某大小肿瘤是否是恶性肿瘤,这就是典型的监督学习,因为它给了你一组已知期望结果的数据,让你来分析出是否是恶性肿瘤与肿瘤大小的关系。
如果把监督学习问题分为连续和离散的,就可以发现监督学习解决的是两种问题:回归和分类
回归解决的是连续变量的问题,比如已知历年来的房价,要求预测未来某年的房价,回归就是利用已知的数据得出一个函数来最佳拟合已知的数据。
分类解决的就是上面提到的恶性肿瘤这样的问题,输入的数据是离散的点,简单地说就是将这些点归类。因为这些点是离散的,所以分类问题就相当于是在区域内画一条线分隔开两类点。
无监督学习
无监督学习不同于监督学习就是我们不知道输入数据的期望输出值。也就是说老师不给我们答案,让我们从一堆数据中自己发掘出某种规律。
无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心(事先也不知道)这一类是什么。
聚类算法的应用很广泛,比如将新闻进行分类、根据给定基因分类人群、客户分类等。
常见的聚类算法有k-means等,这些将在以后进行解释。