一.监督学习
1.监督学习的定义
监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
通俗的讲,就是人来训练机器,教会机器如何做事情。
2. 监督学习的分类
2.1 回归
例如,对于一个地区的房价的数据,如图所示,横轴表示房子的面积,纵轴表示房价。回归算法的目的就是根据这组数据,计算一套房子能卖出多少钱。
我们应用学习算法,拟合一条直线或是二次函数曲线,根据这条线可以推测出,这套房子可能卖出的金额。
回归是针对于连续性变量的
2.2 分类
例如,通过查看病例来推测肿瘤的良性与否,在如图的数据集中,横轴表示肿瘤的大小,纵轴上,用1和 0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性 则记为 1,不是恶性,或者说良性记为 0。
这里分类就派上了用场,分类和回归的区别,在于分类是针对离散型的,输出的结果是有限的。
在本例中,输入一个数据,产生的结果毕竟是离散的,即只有“是”和“否”两种结果。
3.监督学习小测验
假设你经营着一家公司,你想开发学习算法来处理这两个问题:
- 你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你
想预测接下来的三个月能卖多少件? - 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,
你要判断它们是否曾经被盗过?
那这两个问题,它们属于分类问题、还是回归问题。
问题一是一个回归问题,因为数千件货物是一个连续的值。因此卖出的物品数,也是一个连续的值。
问题二是一个分类问题,因为用 0 来表示账户未被盗,用 1 表示账表示账户曾经被盗过。所以我们根据账号是否被盗过,把它们定为0 或或 1,然后用算法推测一个,然后用算法推测一个账号是账号是 0 还是还是 1,因为只有少数的离散值,所以他是一个分类问题。
二.无监督学习
1.无监督学习的定义
无监督学习:不知道数据集中的关系,而是需要根据聚类或是一定的模型的得到数据的关系。
通俗的讲,就是,需要机器自己学习如何做事
如图所示,无监督学习是对于给定的数据,将其自动分为两类不同的簇
例如在新闻应用中,根据每一条新闻的内容对其进行分类,便是一种无监督学习的体现。
2.无监督学习例题
判断下列哪些选项是无监督学习
A. 给定标记为垃圾邮件/非垃圾邮件的电子邮件,学习垃圾邮件过滤器。
B. 给定一组在网络上找到的新闻文章,将它们分组为一组关于同一故事的文章。
C. 给定一个客户数据数据库,自动发现细分市场并将客户分组到不同的细分市场
D. 给定一组被诊断为是否患有糖尿病的患者,学习将新患者分类为是否患有糖尿病。
BC是无监督学习,而AD是监督学习。