前言
博主第一次接触过机器学习,内容可能有许多原文复现,但是我尽量用自己的话来讲,第一次写博客,就当作自娱自乐也好。
读书笔记第一目的是为了总结,第二是顺便在博客上记录我的学习历程,同时也希望读者能有一点点收获吧~如果不对的地方,还请多多指教!
正文
周志华的机器学习第三章讲的是:线性模型
首先从线性模型的基本形式出发,进而介绍了几种经典的线性模型(线性回归,二分类,多分类),博客也按照该流程陈述自己的学习收获。
1.线性模型的基本形式
线性模型,关键在于“线性”。顾名思义线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:
其中x是包含d维属性的向量,(x1,x2,x3,...,xd)是d维属性的描述值。该模型由w=(w1,w2,w3,...,wd)和b所确定。
显而易见,输入向量x的每一项属性都对应一定的权重wi ,不同的权重代表该属性对于此模型的贡献度。
一般向量形式写成:
2.线性回归
先考虑简单的情况,即每个样本只有一个属性,一元线性回归。
给定数据集:
,其中yi为xi的真实标记。
线性回归则试图学得一个线性模型尽可能准确地将预测f(xi)去 逼近yi,即:
显然,既然是逼近,那么误差是存在的。一个良好的线性回归模型的关键就是如何将f(xi)与yi之间的误差最小化!而该模型是由w以及b确定的,那么问题回到w,b的确定:
回归任务中最常用的性能度量是均方误差,也称平方损失,因此上述w,b可以通过均方误差的最小化来计算得出,均方误差:
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,而在线性回归任务中,最小二乘法就是希望学得一条直线,使得所有样本到该直线上的欧氏距离之和最小。
求解出w和b使得均方误差最小化的过程也称为线性回归模型的最小二乘“参数估计”,换句话讲就是对均方误差线性方程求最小值,解出w,b。通过对w,b分别求偏导,并另偏导为0即可解出w,b,从而确定对应的模型结果。
更一般的,样本由d维属性描述的情况,则为多元线性回归:
类似地,也是一样通过最小二乘法对w和b进行估计,为了方便讨论,我们尽量将模型中的各类数据以向量及矩阵形式表示:我们将