20190609
1一元线性回归:一个自变量一个因变量
#两个变量的关系用一条直线来模拟
#如果包含两个以上的自变量,则称为多元回归分析
2最小二乘法,就是代价函数的定义
3相关系数:衡量线性相关性的强弱(越接近1越接近线性关系)
4决定系数
注:y(带一个小帽子的是)预测值
5梯度下降法(利用求到的梯度不断改变两个参数的值)
#首先初始化θ0,θ1
#不断改变θ0,θ1,直到J(θ0,θ1)到达一个全局最小值或者局部最小值
利用梯度下降法来求解线性回归
6凸函数(不管你怎么选初值,总能找到一个全局最优的最小值)
20190610
注意:sklearn
1多元线性回归
2梯度下降法和标准方程法的区别
3数据归一化
4均值标准化
5交叉验证法(数据不够多时采用)
训练集,验证集,测试集
将数据切成10份,
6拟合
欠拟合,正确拟合,过拟合(模型过于复杂)
#防止过拟合:
减少数据特征
增加数据量
正则化(Regularized)
7正则化
20190611
1岭回归(Ridge Regression)
2选择λ使得
#各回归系数的岭估计基本稳定(θ)
#残差平方和增加不太多(代价函数里面的第一部分)
3标准方程法(补充)
分子布局:分子为列向量或分母为行向量
分母布局:分子为行向量或分母为列向量
#这里涉及到关于矩阵求微分的情况
4逻辑回归(Logistic Regression)
和前面的线性回归无关,线性回归用于处理回归问题;逻辑回归是用于解决分类的问题
如垃圾邮件分类,预测肿瘤是良性还是恶性,预测某人的信用是否良好
#决策边界
#convex(凸函数)non-convex(非凸函数)
#逻辑回归正则化
5正确率和召回率
是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量
#正确率:检索出来的条目有多少是正确的
#召回率:所有正确的条目有多少被检索出来了