机器学习课程笔记(第六周)机器学习建议

课程链接:https://www.coursera.org/learn/machine-learning
推荐参考文章:https://www.cnblogs.com/maxiaodoubao/p/10076049.html

1. 如何调试一个机器学习算法

1)获得更多训练数据
2)尝试更多/更少特征
3)尝试添加多项式特征
4)增大/减少 λ 

机器学习诊断法 Machine learning diagnostic

 2. 评估一个假设是否过拟合

1)划分训练集和测试集:
    数据已随机分布:前70%训练集,30%测试集;
    数据未随机分布:随机选择70%作为训练集,30%测试集。
2)计算测试误差:
    对于回归问题:首先使用训练集训练,然后用测试集计算测试误差。
    对于分类问题:一样。

错分率 Misclassification error

若分类预测结果hθ(x)错误,error值为1,正确,error为0.
整体测试误差是所有err值的加和。

3. 模型选择和“训练/验证/测试”集

将数据集分为6:2:2三部分,training set, cross validation set (cv), test se

4. 检验误差和方差 Diagnosing bias 和 variance

模型表现不好:误差bias过大,欠拟合underfitting. 方差variance过大,过拟合overfitting.
使用多项式的度 d 作为横轴,

当d=1时,训练集和cv集误差都很大,欠拟合;d=4时,训练集误差很小,cv误差很大,过拟合。

5. 正则化和偏差/方差

考虑正则化的线性回归模型
1)λ 过大,θ 被惩罚后会变很小,接近于0,最后方程只剩θ0这一项,成为一条直线,导致高偏差,欠拟合。
2)λ 过小,正则项不起作用,导致高方差,过拟合。

如何选择 λ 的值?
1)定义每个集合上的误差函数时不考虑 λ

2)按步长两倍的方式递增 λ ,针对每个 λ 计算 θ
分别计算对应的Jcv(θ),得到最小的Jcv(θ^(i)),然后在test集合上进行测试。

λ 的大小对损失函数的影响:
1) 曲线左边,当 λ 很小 ,Jcv(θ) 的值远大于 Jtrain(θ),过拟合
2) 曲线右边,当 λ 很大 ,Jcv(θ) 和 Jtrain(θ) 都很大,欠拟合

6. 判断一个学习算法是否存在偏/方差问题:学习曲线 Learning curves


 

7. 机器学习中考虑的问题

1)如何提高分类器的准确性?
    - 收集大量数据;
    - 开发复杂的特征;
    - 开发算法,以不同的方式处理输入input

2)解决机器学习问题的建议方法:
    - 从一个简单的算法开始,快速实现它,并在交叉验证集上尽早测试它;
    - 绘制学习曲线,以确定更多数据、更多特性是否有帮助;
    - 手动检查交叉验证集中样本中的错误,并尝试找出大多数错误发生的趋势。

- 获取更多训练集: 适用于高方差 variance 情况;
- 少选几个特征: 同上
- 选用更多的特征:解决高偏差bias问题
- 增加更多的特征多项式 ploynomial features
- 减少 λ :修正高偏差 bias 问题
- 增大 λ :修正高方差 variance 问题

诊断神经网络:
1)一个参数较少的神经网络容易欠拟合,计算上也更容易;
2)一个参数较多的神经网络容易过拟合,可以采用正则化 λ 解决,计算上也更昂贵。

模型复杂性影响:
低阶多项式 Low-order polynomials 具有高偏差和低方差,模型一致性很差。
高阶多项式对训练数据拟合度极高。对测试数据拟合度极低,低偏差高方差。
—>希望选择一个介于二者之间,既能很好概况又很好适合数据。

评估度量(当偏斜率时)

Precision 准确率 / Recall 召回率

怎样比较不同的准确率和召回率:F1 Score

阈值的设定 threshould
设定越低,P越低,R越高,因为更多负例被判为正例;
设定越高,P越高,R越低,因为更多正例被漏掉。

Accuracy = (True positive + true negative) / total examples

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值