学习笔记1 | 机器学习 | 回归分析和分类器
前言:我们在学习分析数据和特征选择的时候,都要面临的一个问题就是如何将数据更好的从一大堆数值栓选出来,那么我对于这个问题涉及到了回归分析和分类器。在此做个笔记表示两者的区别,方便回忆(给明年的师弟师妹留的-_-),两者我都举例说明。
1 回归分析
那么,大家都知道一个初中甚至小学的问题,线性函数是撒?一个坐标轴里面,有一条横线,能明确的表达出y的值和x值的关系,比如y=ax+b就是最基础的线性函数。
在此引申出线性回归
1.1 线性回归
首先,我们假设一个二维平面内,比如就是普通的坐标轴里,有一些零碎的点,比如下图:
现在,我想用一个函数去预测后面的值(就是推测),那么我们就要找个函数来更接近这些点,比如下图:
当然这个直线只是假设,10人里面有10个回归函数,看你怎么划分(这个涉及到损失函数,找到最优函数,本次笔记暂时不做详细解答)。
2 分类器
说实话我都是第一次接触这个东西(头大-_-),分类器看字面意思,估计都认为是来给某某东西分类用的,还是来具体看看吧。
2.1 线性可分
我们要理解,如果在一个二位平面内(坐标轴)里,出现了大量的不同的数据,比如A,B两大类数据分布在坐标轴里,那么我们为了区分A和B,如下图:
这个时候我们选择一条直线,将它从中分开,如下:
这样就将A和B类区分开,假设函数直线为y=ax+b,这样在有新值加入时,大于y=ax+b的就是A类,小于的就是B类,易于区分。
3 两者的关系
有编者将两者的划分说的很形象:
其实两者在对于数据分析的时候,都可以理解在预测下一个值。
这样来说,我们现在有200瓶水,工厂质检时,矿物质的含量都在3.1%-5.8%(随便假设的),现在有一瓶水,通过回归函数(不一定时线性回归,也可能是多元回归),我们判定它的矿物质含量就是4.5%,实际4.8%,误差0.3%。如果这是在规定误差内,这就是比较合适的回归分析。
那么对于分类器来说,数据是离散的,我们的判定就是”正确”和“错误”。比如假设有两类数据A和B,它对于一个新值 x 的判定要么是A类,要么就是B类。
问题来了:
我们如何做到利用回归分析和分类器准确的预测数据,最终我们又如何判定这个判定是合适的?