机器学习线性模型

最新推荐文章于 2024-07-20 00:22:05 发布

time‘’

最新推荐文章于 2024-07-20 00:22:05 发布

阅读量228

点赞数

文章标签：机器学习回归人工智能

本文链接：https://blog.csdn.net/qq_53872463/article/details/126474397

版权

3.1 基本形式

给定由d个属性描述的示例 x = （x1,x2,…xd）,其中xi是x在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即
f(x) = w1x1+w2x2+…+wdxd+b（一般用向量形式写成）
f(x) = wTx+b（其中 w = (w1,w2,…wd). w和d学得之后，模型就得以确定。）
线性模型形式简单，易于建模，但却蕴含着机器学习中一些重要的基本思想

许多功能更为强大的非线性模型可在线性模型的基础上引入层级结构或高维映射而得

w直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性。如若在西瓜问题中学得“f好瓜（x） = 0.2x色泽+0.5x根蒂+0.3x~敲声+1”，则意味着可以通过综合考虑色泽、根蒂，敲声来判断瓜好不好，其中根蒂最紧，而敲声比色泽更重要。

3.2 线性回归

考虑最简单的情形:输入属性的数目只有一个，忽略关于属性的下标，即D = {（xi,yi）}i=1m,其中xi∈R。

若属性值之间存在“序”关系，则可通过连续化将其转化为连续值。

如二值属性"身高"的取值"高" "矮"可转化为 {1.0,0.0} ,

三值属性"高度" 的取值"高" “中” "低"可转化为 {1,0.5,0.0};

若属性值间不存在序关系，假定有k个属性值，则通常转化为k维向量，例如属性"瓜类"的取值"西

瓜" “南瓜” "黄瓜"可转化为 (0,0,1) (0,1,0),(1,0,0)
线性回归试图学得：f(xi) = wxi +b ,使得 f(xi) ≈yi.如何确定w和b?在于如何衡量f(x)与y之间的差别.

均方误差是回归任务中最常用的性能度量，要试图让均方误差最小化。
基于均方误差最小化来进行模型求解的方法称为最小二乘法，在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

求解w和b使最小化的过程，成为线性回归模型的最小二乘“参数估计”。(未知数只有w和b)

更一般的情形：数据集D，样本由d个属性描述，此时我们试图学得：f(xi) = wTxi+b,使得f(xi) ≈yi，称为“多元线性回归”。

类似的，可以利用最小二乘法对w和d进行估计，把w和b吸收进入向量形式把数据集D表示为一个m×（d+1）大小的矩阵X，其中每行对应一个示例，该行前d个元素对应于示例的d个属性值，最后一个元素恒置为1，即

再把标记也写成向量形式 y = (y1,y2,…,ym),则有：在这里插入图片描述
其他定义：对数线性回归；广义线性模型

3.3 对数几率回归

考虑二分类任务，其输出标记y∈{0，1}，而线性回归模型产生的预测值z = wTx + b是实值，于是我们需要将实值z转换为*0/1值，最理想的是“单位阶跃函数”
即若预测值z大于0就判为正例，小于0则判为反例，预测值为临界值0则可以任意判别;但由于单位阶跃函数不连续，所以用对数几率函数（对数几率函数是一种sigmoid函数）替代：在这里插入图片描述

把对数几率函数作为g(.),带入3.15，得到