线性回归-理论
以下面图片中的数据为例进行分析
数据:工资和年龄两个特征
目标:预测银行能够带给我多少钱
思考:工资和年龄都会影响最终银行贷款的结果那它们各自能产生多大的影响
假设工资和年龄对贷款的影响分别为1和
2
拟合的平面:
整理后:
误差分析
真实值与预测值之间一定存在误差(用ε来表示误差)
对于每一个样本 ( y(i)为真实值, θT为参数矩阵, x(i)为第i挑数据的属性内容矩阵, ε(i)为第i条数据所产生的误差)
(上图中红色的点表示真实值,垂线与平面的交点为预测值,高度的差距就是误差)
独立: 假如张三和李四都到银行进行贷款,银行不会因为张三和李四认识而改变银行贷款的标准,即张三和李四为样本, 银行则为算法, 所以每个样本之间是独立的。
相同分布: 假如张三去的是建设银行, 而李四去的是农业银行, 两个不同的数据混合在一块去建立一个用来预测的模型, 这不符合逻辑。 我们要建立一个模型,要么是建设银行的模型, 要么是农业银行的模型, 即概括为数据要在相同的分布下,建立的模型才有实际意义。
均值为0: 如银行贷款时, 有时会给你多贷一些, 有时会给你少贷一些, 但不可能一直给你多贷或者少贷, 所以多贷 与少贷的均值趋近于0
高斯分布: 在高斯分布中, 越靠近0的位置, 产生的偏差越小, 出现的概率就越大; 越远离0的位置, 产生的偏差越 大, 出现的概率就越小。(最大似然估计就是从此处的概率得出, 此处越接近0, 概率p越大)
高斯分布: (主要分布在(-1,1)之间)
机器学习中, 会进行很多假设, 并以这种假设进行推导, 最终得到的结果是可以利用的, 只要最终得到的模型可用, 即可以说假设成立的, 因为没有完全独立和完全相同的分布, 假设是机器学习解决问题的办法。
公式推导
似然函数: 似然函数的通俗解释就是根据样本去估计参数的值的一个函数, 即是由数据去计算参数的大小为多大时, 参数和我们的数据组合后更接近真实值。
对数似然: 对数似然相对于似然函数的有点在于运算方便。似然函数求取的方法是迭乘, 数字较大时会很不方便;对数似然求取的方法是迭加。(由于我们的目标是让似然函数越大越好,而取对数后随着参数的改变,整个函数还是会在原函数的最大值点处取到最大值。而对数又可以将乘法转换为加法方便计算,一次对数似然非常常用)
1640160652617)]
[外链图片转存中…(img-pojjJLxS-1640160652618)]