4.何为有监督机器学习?

有监督机器学习流程

1.首先是机器学习
要有数据 数据集里面要有x和y
有监督机器学习首先要有数据,称为历史数据,然后切分为两部分,一部分用于训练(TrainSet),一部分用于测试(TestSet)。
TestSet称为新数据,对于最终模型在训练过程中没有见过的数据称为新数据,在原有的数据集里面一开始预留一部分出来为测试集,后面等模型算出来之后再用这部分新数据测试集测试一下模型效果是好是坏。
TrainSet就用于训练,历史数据拿过来之后开始训练模型,这里面我们要选择相应的算法,有监督机器学习相应的算法,无非是做分类的应用,分类的算法和回归的应用,回归的算法来训练相应的模型。这过程当中需要迭代运算。迭代运算完之后我们会得到一个最优解,最优解实际上就是我们需要的模型。
2.拿到模型之后我们需要带入新的数据,也就是TestSet测试的数据来看模型预测的结果是好是坏,如果模型预测的结果不好,我们还需要选择其他算法或者对算法进行参数的调优,然后再跑一遍流程把数据带入算法进行迭代训练出模型,然后带入新的数据来进行评估,得到预测的一个结果。
它的本质就是Data(历史数据)也就是TrainSet来作为训练的数据,来带到算法里面去,算法的本质上就是公式,把数据带到公式里面去。比如说我们举一个例子:y=a+bx,我们把训练集里面的x和y带进来,以此我们可以求出a和b,在运算过程中我们需要进行迭代运算以此来求出最优解的这种参数。而模型就是我们公式里面的参数,当我们选择最优的a和b时,那么这就是最优的参数也就是最优的模型,当然a和b需要我们不断的去调整,以至于找到一个最优解,那么a和b就不动了,a和b就是我们最终算出来的模型。基于这个模型真的对于新来的数据它也可以给一个很好的预测结果吗?
这个时候我们就需要用到测试集(新数据),新数据里面有x,拿新数据和模型进行当初和算模型一样的算法进行运算,也就是我们当时用的公式:y=a+bx,这时我们会得到一个结果y’。至于y’好与不好取决于我们新数据,而我们新数据里面不单单只有x,测试集来自于数据的一部分,历史数据里面除了x还有y,所以测试集里面还有x和y。这个时候我们就可以把y’和y进行比较,如果他们一摸一样,就说明预测结果比较不错,如果误差太大,就说明模型不是太好,我们可以从新跑一遍流程,可以选择不同的算法也就是不同的公式,或者调整不同的参数来进行相应的调整。
流程:
在这里插入图片描述

1.一句话总结就是把我们数据(Data)带到我们的算法(Algorithm)里面去,最后求出我们的模型(Model)。
2.本质就是对于有监督机器学习来说数据就是(x,y)带到算法(公式:y=a+bx),训练得到模型(参数:a和b),用这个模型去预测的时候是带入新的数据里面去得到预测的结果(Outcome)。本质上就是1.把我们的新数据里面的x带到模型里面去进行a和b的运算(训练的公式),得到一个y’预测的结果进行评估
3.实际上把我们预测的真实结果y’和我们的真实结果y进行比较评估
这就是有监督机器学习的一个流程
最终反过来说当我们第三步评估出来的结果不错的时候,那我们就认为我们第一步算出来的模型是比较好的,最终上线去使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值