学习笔记 | 机器学习 | 回归分析和分类器

学习笔记1 | 机器学习 | 回归分析和分类器

前言:我们在学习分析数据和特征选择的时候,都要面临的一个问题就是如何将数据更好的从一大堆数值栓选出来,那么我对于这个问题涉及到了回归分析和分类器。在此做个笔记表示两者的区别,方便回忆(给明年的师弟师妹留的-_-),两者我都举例说明。

1 回归分析

 那么,大家都知道一个初中甚至小学的问题,线性函数是撒?一个坐标轴里面,有一条横线,能明确的表达出y的值和x值的关系,比如y=ax+b就是最基础的线性函数。

在此引申出线性回归

1.1 线性回归

首先,我们假设一个二维平面内,比如就是普通的坐标轴里,有一些零碎的点,比如下图:

现在,我想用一个函数去预测后面的值(就是推测),那么我们就要找个函数来更接近这些点,比如下图:

当然这个直线只是假设,10人里面有10个回归函数,看你怎么划分(这个涉及到损失函数,找到最优函数,本次笔记暂时不做详细解答)。

2 分类器

说实话我都是第一次接触这个东西(头大-_-),分类器看字面意思,估计都认为是来给某某东西分类用的,还是来具体看看吧。

2.1 线性可分

我们要理解,如果在一个二位平面内(坐标轴)里,出现了大量的不同的数据,比如A,B两大类数据分布在坐标轴里,那么我们为了区分A和B,如下图:

这个时候我们选择一条直线,将它从中分开,如下:

这样就将A和B类区分开,假设函数直线为y=ax+b,这样在有新值加入时,大于y=ax+b的就是A类,小于的就是B类,易于区分。

3 两者的关系

有编者将两者的划分说的很形象:

"完成的任务是预测一个连续值的话,那这个任务就是回归。是离散值的话就是分类。"

其实两者在对于数据分析的时候,都可以理解在预测下一个值。

这样来说,我们现在有200瓶水,工厂质检时,矿物质的含量都在3.1%-5.8%(随便假设的),现在有一瓶水,通过回归函数(不一定时线性回归,也可能是多元回归),我们判定它的矿物质含量就是4.5%,实际4.8%,误差0.3%。如果这是在规定误差内,这就是比较合适的回归分析。

那么对于分类器来说,数据是离散的,我们的判定就是”正确”和“错误”。比如假设有两类数据A和B,它对于一个新值 x 的判定要么是A类,要么就是B类。

问题来了:

我们如何做到利用回归分析和分类器准确的预测数据,最终我们又如何判定这个判定是合适的?

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值