第四章练习题

随.变.

于 2022-08-28 14:37:28 发布

阅读量331

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_50765975/article/details/126493172

版权

机器学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

1.如果训练集具有数百万个特征，那么可以使用哪种线性回归训练算法？

不能用标准方程和SVD，复杂度太高，使用梯度下降。

2.如果训练集里特征的数值大小迥异，哪种算法可能会受到影响？受影响程度如何？你应该怎么做？

训练模型前科学缩放数据或直接使用标准方程/SVD

3.训练逻辑回归模型时，梯度下降会卡在局部最小值中吗？

不会

4.如果你让它们运行足够长的时间，是否所有的梯度下降算法都能得出相同的模型？

不是，会有细微差别（来回横跳）

5.假设你使用批量梯度下降，并在每个轮次绘制验证误差。如果你发现验证错误持续上升，可能是什么情况？你该如何解决？

如果训练错误也上升，可能是学习率过高算法发散，应该降低学习率；如果训练错误没有增加则已经过拟合训练，应该停止训练。

6.当验证错误上升时立即停止小批量梯度下降是个好主意吗？

不好，应该在较长时间内都没有改善再停止。

7.哪种梯度下降算法（在我们讨论过的算法中）将最快到达最佳解附近？哪个实际上会收敛？如何使其他的也收敛？

随机梯度下降法；批量下降；逐渐降低学习率。

8.假设你正在使用多项式回归。绘制学习曲线后，你会发现训练误差和验证误差之间存在很大的差距。发生了什么？解决此问题的三种方法是什么？

过拟合。1.降低多项式阶数。2.对模型进行正则化。3.增加训练集大小。

9.假设你正在使用岭回归，并且你注意到训练误差和验证误差几乎相等且相当高。你是否会说模型存在高偏差或高方差？你应该增加正则化超参数α还是减小它呢？

如果训练误差和验证误差几乎相等且相当高，则该模型很可能欠拟合训练集，这意味着它具有很高的偏差。你应该尝试减少正则化超参数α。

10.为什么要使用： a.岭回归而不是简单的线性回归（即没有任何正则化）？ b.Lasso而不是岭回归？ c.弹性网络而不是Lasso？

·具有某些正则化的模型通常比没有任何正则化的模型要好，因此，你通常应优先选择岭回归而不是简单的线性回归。 ·Lasso回归使用 1惩罚，这通常会将权重降低为零。这将导致稀疏模型，其中除了最重要的权重之外，所有权重均为零。这是一种自动进行特征选择的方法，如果你怀疑实际上只有很少的特征很重要，那么这是一种很好的方法。如果你不确定，则应首选岭回归。 ·与Lasso相比，弹性网络通常更受青睐，因为Lasso在某些情况下可能产生异常（当几个特征强相关或当特征比训练实例更多时）。但是，它确实增加了额外需要进行调整的超参数。如果你希望Lasso没有不稳定的行为，则可以仅使用l1_ratio接近1的弹性网络。

11.假设你要将图片分类为室外/室内和白天/夜间。你应该实现两个逻辑回归分类器还是一个Softmax回归分类器？

如果你要将图片分类为室外/室内和白天/夜间，因为它们不是排他的类（即所有四种组合都是可能的），则应训练两个逻辑回归分类器。

12.用Softmax回归进行批量梯度下降训练，实现提前停止法（不使用Scikit-Learn）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四章练习题

具有某些正则化的模型通常比没有任何正则化的模型要好，因此，你通常应优先选择岭回归而不是简单的线性回归。这是一种自动进行特征选择的方法，如果你怀疑实际上只有很少的特征很重要，那么这是一种很好的方法。如果你不确定，则应首选岭回归。如果训练误差和验证误差几乎相等且相当高，则该模型很可能欠拟合训练集，这意味着它具有很高的偏差。如果你要将图片分类为室外/室内和白天/夜间，因为它们不是排他的类（即所有四种组合都是可能的），则应训练两个逻辑回归分类器。如果训练错误没有增加则已经过拟合训练，应该停止训练。...
复制链接

扫一扫

专栏目录

随.变. CSDN认证博客专家 CSDN认证企业博客

码龄4年

17: 原创

130万+: 周排名

96万+: 总排名

7326: 访问

: 等级

189: 积分

11: 粉丝

11: 获赞

4: 评论

22: 收藏

私信

关注

热门文章

分类专栏

机器学习 17篇

最新评论

《机器学习实战》第二章
hrb500: 为啥代码全部复制上去运行，就报错啊FileNotFoundError: [Errno 2] No such file or directory: 'datasets\\housing\\housing.csv'
《机器学习实战》第二章练习题
m0_69395248: 我每一个CV都要跑你两倍的时间，真的是硬件的问题吗。我的处理器也是i7的啊
《机器学习实战》第二章练习题
sakeww: 很棒的题解，向大佬学习！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。