逻辑回归
分类
分类模型的结果输出为离散化,回归模型的输出为连续化。
二分类或多分类
- 预测一个用户是否点击特定的商品(点击/未点击)
- 预测用户是否会购买给定的商品(购买/未购买)
- 判断一条评论是正面的还是负面的(正面/负面)
分类学习
概念:在机器学习和统计中,分类根据包含已知类别成员的观察值(或实例)的训练数据集来确定新观测值所属的一组类别(子群)中的哪一个。
举例:将给定的电子邮件分为“垃圾邮件”和“非垃圾邮件”类,或根据观察到的患者特征(性别,血压,是否存在某些症状等)描述给指定患者分配诊断。
逻辑回归模型
梯度下降过程
总结
结果
过拟合
案例分析
信号和噪声
在建模分析中,我们可以将“信号”理解为从数据中真正想要学习到的信息,“噪声”则是数据集中的不相关信息和不确定性。好的机器学习模型应该是找出“信号”,而过于复杂的模型会将“噪声”也记住。
拟合优度
机器学习中,拟合优度(goodness of fit)指的是模型预测值与真实值相匹配的程度。学习“噪声”的模型被称为是过拟合(overfit),在训练集上表现良好,但是与新训练集的拟合优度差。如下图绿线所示:
欠拟合
与过拟合相对的拟合曲线被称为欠拟合(underfit),对已有训练集的拟合程度差,模型表现效果差,没有学习到数据中的信息,这样的拟合曲线被称为欠拟合。如下图所示:
欠拟合VS过拟合
防止欠拟合:
- 选取或构造新的特征
- 增加模型复杂度
- 检查数据是否噪声较大
- 增加模型训练时间
防止过拟合:
为了检测模型是否过拟合,我们可以将我们的初始训练数据集分成单独的训练集(train set)和验证集(validation set),该方法可近似我们的模型在新的数据上的表现。
在训练集上完成模型的训练和拟合,在验证集上判断模型是否过拟合(调整参数),测试集用来判断模型的表现能力。
学习曲线
我们在训练集上训练模型,在验证集上评估模型同时记录误差绘制出学习曲线。
训练集较小的时候,训练误差远远小于验证误差,模型完全过拟合;训练集增大时,训练误差越来越接近验证误差,这时模型拟合效果越好。
权衡偏差与方差
统计学习和机器学习中模型或结果的泛化误差通常可以表示为三个不同误差的总和:偏差(bias)、方差(variance)、残差(irreducible error,也称为噪声)。
- 学习算法的期望预测
- 偏差(期望输出与真实标记的差别,是由错误的模型假设造成的,模型呈现欠拟合的状态)
- 方差(度量了同样大小的训练集变动所导致的学习性能的变化,即刻画了数据扰动造成的影响)
- 噪声
- 期望泛化误差
结论:
增加模型的复杂度会增加预测结果的方差同时减小误差,相反减小模型复杂度会增加偏差、减小方差。
防止过拟合
- k折交叉验证选择训练参数
- 使用更多数据来训练
- 删除部分相关度高的特征
- 正则化
- 过拟合前提前停止训练模型