机器学习中的监督学习

监督学习与非监督学习

如果数据集中样本点只包含了模型的输入x,那么就要采用非监督学习的算法;

如果这些样本点以(x,y)这样的输入-输出二元组的形式出现(有数据标签),那么就可以采样监督学习的算法;

监督学习


回归

回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。

例如:

• 一个购物网站想要计算出其在某个时期的预 期收益,研究人员会将相关因素如广告投放 量、网站流量、优惠力度等纳入自变量,根 据现有数据拟合函数,得到在未来某一时刻 的预测值。

• 回归问题中通常使用均方损失函数来作为度 量模型效果的指标,最简单的求解例子是最 小二乘法。



线性回归可以应用的场景

1.预测房价

• 假设我们想要预测某个城市的房价。我们可以收集 到该城市过去几年的房价数据,以及一些相关的因 素,比如房屋的面积、房龄、所处区域、楼层等。 我们可以使用这些数据建立一条最佳拟合直线,从 而对未来的房价进行预测。

• 在这个例子中,自变量可以包括面积、房龄、所处 区域等,因变量是房价。

• 我们可以通过最小二乘法来估计截距和斜率的值, 从而得到一条最佳拟合直线。这条直线可以用来预 测未来的房价,也可以用来分析不同因素对房价的 影响。

2.预测销售额

• 假设我们想要预测某家公司未来一年的销售额。

• 我们可以收集到该公司过去几年的销售额数据,以 及一些相关的因素,比如广告投入、促销活动、季 节性因素等。我们可以使用这些数据建立一条最佳 拟合直线,从而对未来的销售额进行预测。

• 在这个例子中,自变量可以包括广告投入、促销活 动、季节性因素等,因变量是销售额。我们可以通 过最小二乘法来估计截距和斜率的值,从而得到一 条最佳拟合直线。这条直线可以用来预测未来的销 售额,也可以用来分析不同因素对销售额的影响。

分类

想要预测(检测)的目标是猫,那么在数据集中猫为正样本 (Positive ),其他狗、兔子、狮子这些数据为负样本 (Negative )。

• 将这只猫预测(分类)为狗、兔子、其他预测结果为错(False); 将这只猫预测为猫,预测结果为对(True)。



虽然准确率可以判断总的正确率,但是在样本不平衡的 情况下,并不能作为很好的指标来衡量结果。 举个简单的例子,比如在一个总样本中,正样本占90%, 负样本占10%,样本是严重不平衡的。 对于这种情况,我们只需要将全部样本预测为正样本即可 得到90% 的高准确率,但实际上我们并没有很用心的分 类,只是随便无脑一分而已。 ◦ 这就说明了:由于样本不平衡的问题,导致了得到的高准 确率结果含有很大的水分。即如果样本不平衡,准确率就 会失效。




小结

•本章对机器学习基础知识进行了介绍,这部分是 理解后续高级操作的基础。

• 监督学习与非监督学习主要针对数据集定义。

• 有监督数据集需要人工标注,成本较为昂贵,但 是在训练模型时往往能够保障效果。

• 无监督数据集一般不需要过多人工操作,可以通 过爬虫等方式自动大量获得。

• 由于没有监督信息的约束,需要设计巧妙的学习算法才能 有效利用无监督数据集训练模型,不过大量廉价数据可以 从另一个方面提高模型性能。

• 模型评估需要根据模型的训练历史判断模型是否处于欠拟 合或过拟合状态。尽管有一定的规律作为指导,而且有一 些工具可以辅助分析,但是模型的评估过程一般需要较为 丰富的经验。

• 读者可以在深度学习实验中有意识地训练自己的模型评估 能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值