机器学习课程笔记（第六周）机器学习建议

最新推荐文章于 2023-07-16 18:27:24 发布

骨骼惊奇不信邪

最新推荐文章于 2023-07-16 18:27:24 发布

阅读量361

点赞数

分类专栏：机器学习与数据分析文章标签：机器学习

本文链接：https://blog.csdn.net/qq_35353931/article/details/103016136

版权

机器学习与数据分析专栏收录该内容

19 篇文章 0 订阅

订阅专栏

课程链接：https://www.coursera.org/learn/machine-learning
推荐参考文章：https://www.cnblogs.com/maxiaodoubao/p/10076049.html

1. 如何调试一个机器学习算法

1）获得更多训练数据
2）尝试更多/更少特征
3）尝试添加多项式特征
4）增大/减少 λ

机器学习诊断法 Machine learning diagnostic

2. 评估一个假设是否过拟合

1）划分训练集和测试集：
数据已随机分布：前70%训练集，30%测试集；
数据未随机分布：随机选择70%作为训练集，30%测试集。
2）计算测试误差：
对于回归问题：首先使用训练集训练，然后用测试集计算测试误差。
对于分类问题：一样。

错分率 Misclassification error

若分类预测结果hθ(x)错误，error值为1，正确，error为0.
整体测试误差是所有err值的加和。

3. 模型选择和“训练/验证/测试”集

将数据集分为6:2:2三部分，training set, cross validation set (cv), test se

4. 检验误差和方差 Diagnosing bias 和 variance

模型表现不好：误差bias过大，欠拟合underfitting. 方差variance过大，过拟合overfitting.
使用多项式的度 d 作为横轴，

当d=1时，训练集和cv集误差都很大，欠拟合；d=4时，训练集误差很小，cv误差很大，过拟合。

5. 正则化和偏差/方差

考虑正则化的线性回归模型
1）λ 过大，θ 被惩罚后会变很小，接近于0，最后方程只剩θ0这一项，成为一条直线，导致高偏差，欠拟合。
2）λ 过小，正则项不起作用，导致高方差，过拟合。

如何选择 λ 的值？
1）定义每个集合上的误差函数时不考虑 λ

2）按步长两倍的方式递增 λ ，针对每个 λ 计算 θ
分别计算对应的Jcv(θ)，得到最小的Jcv(θ^(i))，然后在test集合上进行测试。

λ 的大小对损失函数的影响：
1) 曲线左边，当 λ 很小，Jcv(θ) 的值远大于 Jtrain(θ)，过拟合
2) 曲线右边，当 λ 很大，Jcv(θ) 和 Jtrain(θ) 都很大，欠拟合

6. 判断一个学习算法是否存在偏/方差问题：学习曲线 Learning curves

7. 机器学习中考虑的问题

1）如何提高分类器的准确性？
- 收集大量数据；
- 开发复杂的特征；
- 开发算法，以不同的方式处理输入input

2）解决机器学习问题的建议方法：
- 从一个简单的算法开始，快速实现它，并在交叉验证集上尽早测试它；
- 绘制学习曲线，以确定更多数据、更多特性是否有帮助；
- 手动检查交叉验证集中样本中的错误，并尝试找出大多数错误发生的趋势。

- 获取更多训练集：适用于高方差 variance 情况；
- 少选几个特征：同上
- 选用更多的特征：解决高偏差bias问题
- 增加更多的特征多项式 ploynomial features
- 减少 λ ：修正高偏差 bias 问题
- 增大 λ ：修正高方差 variance 问题

诊断神经网络：
1）一个参数较少的神经网络容易欠拟合，计算上也更容易；
2）一个参数较多的神经网络容易过拟合，可以采用正则化 λ 解决，计算上也更昂贵。

模型复杂性影响：
低阶多项式 Low-order polynomials 具有高偏差和低方差，模型一致性很差。
高阶多项式对训练数据拟合度极高。对测试数据拟合度极低，低偏差高方差。
—>希望选择一个介于二者之间，既能很好概况又很好适合数据。

评估度量（当偏斜率时）

Precision 准确率 / Recall 召回率

怎样比较不同的准确率和召回率：F1 Score

阈值的设定 threshould
设定越低，P越低，R越高，因为更多负例被判为正例；
设定越高，P越高，R越低，因为更多正例被漏掉。

Accuracy = (True positive + true negative) / total examples

骨骼惊奇不信邪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习课程笔记（第六周）机器学习建议

课程链接：https://www.coursera.org/learn/machine-learning推荐参考文章：https://www.cnblogs.com/maxiaodoubao/p/10076049.html1. 如何调试一个机器学习算法1）获得更多训练数据2）尝试更多/更少特征3）尝试添加多项式特征4）增大/减少 λ机器学习诊断法 Machine learni...
复制链接

扫一扫

专栏目录