欢迎来到@一夜看尽长安花 博客,您的点赞和收藏是我持续发文的动力
对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何想要讨论的问题可联系我:3329759426@qq.com 。发布文章的风格因专栏而异,均自成体系,不足之处请大家指正。
专栏:
文章概述:理解简单线性回归&最优解_损失函数_MSE&扩展到多元线性回归&维度
关键词:线性回归 最优解 损失函数 MSE 维度
本文目录:
从线性回归开始
线性回归是机器学习中有监督机器学习下的一种算法。
回归问题主要关注确定一个唯一的因变量(dependent variable)(需要预测的值)和一个或多个数值型的自变量(independent variables)(预测变量)之间的关系。
- 需要预测的值:即目标变量,target,y,连续值
- 预测变量:影响目标变量的因素,predictors,X1...Xn,可以是连续值也可以是离散值
之间的关系:即模型,model,是我们要求解的
连续值和离散值
简单线性回归
前面提到过,算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。
这个公式中,y是目标变量即未来要预测的值,x是影响y的因素,a,b是公式上的参数即要求的模型。其实a就是咱们的截距,b就是斜率嘛!
所以很明显如果模型求出来了,未来影响y值的未知数就是一个x值,也可以说影响y值的因素只有一个,所以这是算法包含“简单”这个词的原因。
同时可以发现从x到y的计算,x只是一次方,所以这是算法叫“线性”回归的原因。
其实,大家上小学时就已经会解这种一元一次方程了。为什么那个时候不叫人工智能算法呢?
因为人工智能算法要求的是最优解!
y=a+bx | y | x | a | b |
已知条件1 | 11 | 5 | 1 | 2 |
已知条件2 | 9 | 4 | 1 | 2 |
已知条件3 | 10 | 4 | 2 | 2 |
看一个美国人发火箭的例子
最优解
Actual value:真实值,即已知的y
Predicted value:预测值,是把已知的x带入到公式里面和猜出来的参数a,b计算得到的
Error:误差,预测值和真实值的差距
最优解:尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失Loss
Loss:整体的误差,loss通过损失函数loss function计算得到
平方均值误差 Loss=MSE
sigma
扩展到多元线性回归
多元线性回归
现实生活中,往往影响结果y的因素不止一个,这时x就从一个变成了n个,X1...Xn
同时简单线性回归的公式也就不在适用了
多元线性回归公式
思路:
上图中,examples就是已知的样本,examples中包含X也包含Y,Y就是outcome已知结果,如果咱们有m条历史记录,就是有m条样本,也就是有m个Y值,或者说Y为包含m个值的一维向量。
同时每条样本的X从X1到Xn有n个影响结果的因素,图中为了简化相当于n=3即有3个影响结果的因素,在机器学习中,我们也会把影响结果的因素叫特征feature,因为有多个所以图里就是features,值得一提的是X0一列,是为了后面可以通过公式计算出截距项而加的,同时会把X0一列所有值设置恒为1,这样X就是m行4列的二维数组即矩阵。
图中ε代表error误差,每条样本预测的值和真实值之间都会有误差,所以有m条样本就对应m个ε值,ε和Y一样是包含m个值得一维向量。
最后图中还出现了β符号,从0到n,n=3,总共有4个,其实细心的你会发现这个正好和特征数量一样,我们可以理解或叫做这是特征的权值,代表对应特征的重要程度,也叫权重,英文weights,进而后面课程中也会用符号W代替β。
举例:
(比如我们要训练一个模型未来判别一个人有多漂亮,给打个分,历史数据是人的一些指标和已知得分,那么如果有1000个人的数据,就是1000个examples,那么m=1000。Y里面就存放1000个已知分数。同时一个人有哪些特征啊?比如有鼻子,有眼睛,有收入,有穿衣服,那么鼻子、眼睛、收入、衣服等就是特征,每个人到底是高鼻梁还是塌鼻子,眼睛什么颜色的,收入情况多少,衣服款式什么样的等就是具体的特征值。我们要算的W权值就是把这些特征所对应的重要程度计算出来,未来就可以拿到一个人的特征值去计算具体的分数了。)
理解多元线性回归表达式几种写法的原因
在多元线性回归中W是一维向量,代表的是W0到Wn,我们也可以用线性代数的方式去表达公式,这时算法要求解的就是这个向量,如果维度很多我们当然需要计算机帮助我们来求解了。
第一种表达
第二种表达
了解矩阵相乘的计算方式就很好理解上面的式子等级与之前的相乘相加!!
理解维度这个概念
维度
举例:
一个不断升高维度得游戏,让大家理解维度的提高对于机器学习的重要性
通常我们会认为我们人类生活在地球上是一个3维空间中,如果加上时间就是4维,比如点是0维,线是一维,面是二维空间,立体空间是3维空间
回归问题
分类问题