Machinelearning and regression

什么是机器学习?

        机器学习就是自动找函式的一个过程。

那我们一般都需要找什么样子的函式?

1.Regression(线性回归):数据通过函式后得到一个数值。

2.Binary Classification(二分类):数据通过函式后得到两个选项中的一个。 

3.Multi-class Classification(多分类):数据通过函式后得到多个选项中的一个。

 4.Generation(产生):特殊的一类,数据通过函式后不再是得到简单的一个数字或者选项,而是产生一些更高级,有结构的复杂东西,例如:文句,二次元人物等等,通俗来讲就是创造。

那我们怎样告诉机器我们想找什么样的函式呢?

1.Supervised Learning(监督学习)

         监督学习最主要的标志就是,我们输入数据时伴随着给每个数据提供属于他的标签。比如我们输入一个猫的图片,就给他标注成“猫”。我们输入一只狗的图片,就给他标注成“狗”。那当我们训练完数据过后再拿一张新的图片传入到函式中后,就能得到这张图片到底是属于猫还是狗。

然而有时候我们的函数不一定能输出正确的结果,所以我们一般用Loss也就是损失来描述我们有多大的程度上没有得到正确的结果。

值得庆幸的是,接下来我们的机器会自动的找出Loss最低的函式。

2.Reinforcement Learning(强化学习)

        强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。最大的特点是设立奖惩制度,已达奖赏最大化。

 

3.Unsupervised Learning(无监督学习)

         区别于监督学习的最大特点是没有标签。

Regression

        上文我们说到Regression最大的特点就是数据通过函式后得到一个数值。

         那我们怎么来找到一个回归类的函式呢?我们来举一个宝可梦进化的例子,我们给定一只宝可梦具有Combat Power(战力值),种类,hp,高度,重量等等,经过我们的函式后得到一个预估的进化后的cp值。

 那第一步,我们要找到一个模型。我们先找一个简单的线性模型,b为偏置,w为每个特征的权重,他们刚开始都可以为任意值。

 然后第二步则是该考虑我们选取的函式的优劣,为了简化我们只考虑初始cp值这一个特征,我们假设我们抓了10只宝可梦。并将10个宝可梦的数据放入我们所选的函式中,得到我们预测的宝可梦进化后的cp值。

 那我们怎么评价我们选取函式的优劣呢,这就用到我们上文说过的Loss,也就是损失。我们通过建立一个损失函数L(f)来得到我们损失的值,越大代表我们损失的越大,函式也就越差。

第三步我们就要找到该模型下最好的函式,通过改变偏置b和权重w的值,使损失函数的值达到最小,从而得到最好的函式。

 如何得到最小的损失函数值,也就是得到w和b呢?

        我们引入梯度下降法来求最小损失函数。

 

 

接下来我们求对参数w,b进行求偏导的值:

 经过不断的梯度下降算法后,拟合出一条直线:

从拟合的直线可以看出很多点不在拟合的直线上,所以其实这个模型我们选择的并不好,而且我们训练数据的平均误差和测试的训练都比较大。那我们提出一个新的问题,怎么才能将让我们的模型拟合性更好,平均误差更小。下面我们来增加模型的复杂度试试看。

 

 

 

 

 我们增加了模型的维度,分别引入了2次方,3次方,4次方以及五次方。可以看到直到三次方,我们训练和测试数据的平均误差都是在降低的,然而从4次方开始,我们测试数据的平均误差变得越来越大,下图我们可以直观地看出来。

当我们训练数据的平均误差比较低,而测试数据平均误差比较高时,我们称这种现象为过拟合(Overfiting)。

 

 当我们收集了更多的数据后,会发现我们的数据分布非常的不规律,无法用一条线拟合出来,这时我们要考虑是不是有很多属性被我们忽略了,有可能是宝可梦的种类丶血量丶攻击力等等。 

 

 我们先考虑物种的影响,每个不同的物种都有一个自己的模型。我们引入一个新的系数

 如果数据的物种和xs相同,那么我们参数取1,如果不同,那么我们参数取0。

 

 

 

上图我们根据不同物种,拟合出不同物种的线性模型,可是我们的测试数据得到的平均误差仍然很大,所以我们要思考可能还有很多特征是我们没有考虑到的。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值