目录
一元线性回归
为什么用直线而不用一条曲线?
如果用曲线拟合存在过拟合的问题,测量点存在一定误差,用曲线连接就是把误差也考虑进去了
正交回归 vs 线性回归
正交回归:过点作与直线的垂线的距离
线性回归:同x下y与y'的距离
线性回归
- 目标:最小均方误差值——>用均方误差最小化进行模型求解的方法叫“最小二乘法”
- 损失函数:通过均方误差衡量(平方保证都是正的)
注: 指使y最小时x的取值,最后输出的是x的取值而不是y的最小值
极大似然估计
找到一个参数使联合概率分布最大
求解步骤
线性回归中用极大似然估计
此时对 的建模转换为对y的建模,均值为 (wx+b)
推导步骤:
我的理解:极大似然估计与最小二乘估计殊途同归
总结
W,b的求解
- 为什么是凸函数?
- 求偏导得出的为什么一定是最值?
为什么是凸函数
左凹右凸
左凸右凹
由一阶梯度推广到二阶海塞矩阵
海塞矩阵判凹凸性类似于一元函数中,通过求二阶导判凹凸性
顺序主子式的定义:
把2阶顺序主子式凑了个平方项得证
为什么偏导求出来为最小值点
根据偏导为0求出w【为方便代码处理,通常进行向量化】
多元线性回归
目标:
- 导出损失函数
- 求解
导出并向量化损失函数E
:扩充矩阵把常数合并进去,完全向量化
对求和符号也进行向量化
其中②为
,因为
为常数,常数转置等于本身
求解w
证明凸函数→利用凸函数的性质求解
证明凸函数
和后面几个函数都是标量对向量求偏导(矩阵微分内容)
求法:
矩阵微分查询相关资料:
https://en.wikipedia.org/wiki/Matrix_calculus
求解w
对数几率回归
本质:分类算法,通过线性映射上套一个映射实现分类
映射函数为:(sigmoid函数)
为什么选取该函数
- 西瓜书:根据对数几率选的
- 拓展阅读:https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/
极大似然估计推导
信息熵推导
利用相对熵刻画理想分布和模拟分布的差异
总结
二分类线性判别分析
符号明确
- 假设现在有4个样本(x1,y1)(x2,y2)(x3,y3)(x4,y4),前两个样本分类为1,后两个样本分类为0,
,
表示负样本的集合,
表示正样本的集合;
为负样本的特征向量,
;
为正样本的特征向量,
为负样本的协方差,
为正样本的协方差
严格定义:
其中m0为X0中的样本个数,m1同理,西瓜书上没有m系数,不严谨,但不影响推导
算法原理
这是一个特征空间(由特征属性作为坐标轴),找一条直线,所有点垂直投影到直线上,该直线需要满足:同类的投影后尽量距离近,异类的投影后距离尽量远。若新加入一个样本“?”,根据投影判别它离正样本更近,则判定为正样本
损失函数推导
问题:怎么找到投影的这条直线?
数学化:同类样本方差尽量小,异类中心点相隔远
并非严格投影是指,本来投影是
(
为样本点与直线w上任意一点连线,和直线w的夹角),但是为了方便用内积计算,补上了直线的模长|w|
并非严格方差:前面解释过了,系数原因(但不影响最小化)
就是样本点的投影到中心点投影的距离,则
就等于方差(距离的平方和)
分子:异类中心的投影距离
分母:同类样本点和中心点距离的方差
:下面那个2指2范数,即向量的模长,上面那个2是平方,该项可以等效为向量的内积
w求解
也可以固定分子或者固定w,只是为了使问题可解,一般把最大化问题都转为最小化问题
为广义特征值,AX=
X为特征值问题,AX=
BX为广义特征值问题
因为如果这个时候考虑约束条件,就是把w代进去设置
使w满足约束,但本质也是限制w模长,所以不考虑了
目标函数不为0说明不是最大值点,那么就是最小值点。一定存在的原因是,w就只能360度旋转,投影距离一定存在最大值最小值(该具体场景下具体分析)
广义特征值
广义瑞利商
w即为Sb相对于Sw的最大特征值(前面所说的分母固定,符合该处条件)。能使得广义特征值方程成立的就是n个广义特征向量,代入R(x)中就可以求得特征值
视频链接: