1、线性回归:自变量和因变量呈线性关系,y=θx+b。
2、求解方法:最小二乘求解, 最小化代价函数J(θ)
(1)梯度下降、随机梯度下降:容易出现局部最优解。
(2)矩阵求解:
(3)原理解释:假设误差服从高斯分布(便于数学处理:处处可导、事实)
3、过拟合、欠拟合、局部加权回归
过拟合:过于依赖训练样本(样本太全),导致模型推广能力差
欠拟合:训练样本不够有代表性或者数量较少,导致模型未能学会数据间的关系
局部加权回归:距离远的权重小,影响小。常用高斯核。
4、线性分类(二分类):对数(logistic)回归。使用sigmod函数,利用伯努利方程和最大似然法求解似然性最大的参数。求解过程使用梯度下降(同最小二乘)或牛顿法(按照切线下降,二次收敛)。
5、广义线性模型:概率密度分布函数满足指数族分布的;
6、学习式算法和判别式算法:前者输出是各类的概率(朴素(天真)贝叶斯,依赖于已有样本,拉普拉斯平滑,先验、后验、似然。独立分布)。后者直接输出类别