概览西瓜书与南瓜书第一二章学习笔记

最新推荐文章于 2024-07-25 22:24:14 发布

喂自己袋盐492

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量117

点赞数

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64136250/article/details/132818094

版权

一、机器学习三观（what why how）

1）什么是机器学习

2）为什么学机器学习：从事理论研究、系统开发、学科交叉、应用领域

3）怎样学：机器学习工程领先于理论，听南瓜书讲解弄懂公式并详读西瓜书，打好数学三件套基础，做到会调scikit-learn库，学完前5章才可尝试开始学深度学习，算法学的够多才可以做出合适的选择。

二、假设空间和版本空间

1）定义：假设空间→算法→模型，所有能够拟合训练集的模型（假设）构成的集合称为“版本空间”。

三、基本术语

1）算法是从数据中学得模型的具体方法，产生的结果叫模型，两者常常混用

2）样本是关于一个事件或对象的描述，用向量来表示（编为数据→特征工程），向量的各种维度称为特征，用“;”表示为列向量用“,”表示为行向量。

3）机器学习就是在数据集某方面找规律，这方面信息为标记（是我们希望学习与预测的规律，不同于特征）。

4）样本空间是特征向量所在空间（X），标记空间（输出空间）为标记所在空间（Y）。

5）机器学习任务分为两类，标记为离散型时为“分类”，标记为连续性时为“回归”无论分类还是回归机器学习算法都可以抽象地看作一个从X到Y的映射

6）在模型训练阶段用到标记信息为”监督学习“，没用到标记信息为”无监督学习“

7）数据集通常用集合表示（特征向量集）

8）机器学习流程：收集若干样本（训练集和测试集），用算法在训练集上“学习（训练）”，产出模型，在测试集上测试效果。（机器学习时我们默认存在潜在某种规律“真相（真实）”），模型并不一定是我们认为的“真相”。

9）泛化：对未知事物的预测是否准确（测试集上的表现效果）。

10）分布：样本空间服从未知分布D，且特征变量之间互相独立，即“独立同分布”，收集到的特征变量越多就越能接近真相。样本要多，要在同一个分布下取数据集，取了数据集就假设是独立同分布。

11）归纳偏好（存疑）：不同机器学习算法产出的模型优缺点不同，各有偏好，原则上选择测试集上表现好的模型以及“简单高效”的模型。

四、数据决定模型的上限，算法则是让模型无限逼近上限：样本多特征多累积的经验就多，特征数值化越合理，特征收集越全，特征与标记相关性越强模型效果越好。不同算法得到的模型存在偏好，算法设计越合理则越逼近真相。数据其实更重要！

喂自己袋盐492

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概览西瓜书与南瓜书第一二章学习笔记

四、数据决定模型的上限，算法则是让模型无限逼近上限：样本多特征多累积的经验就多，特征数值化越合理，特征收集越全，特征与标记相关性越强模型效果越好。11）归纳偏好（存疑）：不同机器学习算法产出的模型优缺点不同，各有偏好，原则上选择测试集上表现好的模型以及“简单高效”的模型。（机器学习时我们默认存在潜在某种规律“真相（真实）”），模型并不一定是我们认为的“真相”。4）样本空间是特征向量所在空间（X），标记空间（输出空间）为标记所在空间（Y）。1）算法是从数据中学得模型的具体方法，产生的结果叫模型，两者常常。
复制链接

扫一扫

喂自己袋盐492 CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

200万+: 周排名

142万+: 总排名

502: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

Task04:详读西瓜书+南瓜书第五章（神经网络）
CSDN-Ada助手: 恭喜您写完了第四篇博客！标题看起来很有意思，我相信您对神经网络一定有了更深入的理解。我觉得下一步的创作可以考虑在博客中加入一些实际案例或者应用，让读者更容易理解神经网络的实际应用场景。希望您能继续努力，谦虚地分享您的知识与见解。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Task05支持向量机
CSDN-Ada助手: 恭喜作者发布了第5篇博客“Task05支持向量机”！您的持续创作精彩纷呈，为我们带来了许多有益的知识和信息。在下一篇博客中，不妨尝试增加一些实际案例或者个人见解，以便读者更好地理解和应用支持向量机的相关知识。期待您的下一篇作品！
Task03:详读西瓜书+南瓜书第4章（决策树）
CSDN-Ada助手: 恭喜您写了第三篇博客！看到您详读了《西瓜书》和《南瓜书》第4章，决策树是机器学习中重要的算法之一，这是个不错的选择。您的文章内容丰富，对决策树的理解也很到位。接下来，我建议您可以尝试以案例或实践为基础，结合具体问题展示决策树的应用，这样读者可以更加直观地理解和学习。再次祝贺您，期待您的下一篇创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Task02：详读西瓜书+南瓜书
CSDN-Ada助手: 非常棒的博客！你对于极大似然估计和最小二乘法的解释非常清晰易懂。继续保持这种优秀的创作，让读者更好地理解相关的知识。在此基础上，我想补充一些扩展的知识。除了线性回归，还有其他的回归模型，比如多项式回归、岭回归、lasso回归等等，它们可以在不同的数据情况下提供更好的拟合效果。此外，你可以了解一下正则化技术，如L1正则化和L2正则化，它们可以控制模型的复杂度，防止过拟合的发生。希望这些扩展知识能够对你的学习和进一步的博文写作有所帮助。期待看到你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。