监督学习(supervised learning)
我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案。
包含回归问题和分类问题。
回归问题(regression problem)
回归是指我们的目标是预测一个连续值输出
例:给出一些不同面积时房子的售价,预测在某个面积时房子的售价。
分类问题(classification problem)目的是预测离散值输出
例:给出不同肿瘤大小时得的是良性肿瘤还是恶性肿瘤。
无监督学习(unsupervised learning)
当我们得到一个数据集时,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么,
我们只被告知这里有一个数据集,你能在其中找到某种结构吗?
(即是没有把正确答案给算法)
聚类算法(clustering)是无监督学习的一种。
对于给定的数据集,无监督学习算法可能判定该数据包含n个不同的簇,
并把这些数据分成n个不同的簇。
然后把它们组合成一个个新闻专题(自动地分簇),
有关同一主题的新闻被显示在一起
例:把同一时间录到的声音区分出来,并得到原本各个音源的声音。