机器学习基本概念（二）

最新推荐文章于 2024-10-07 06:31:57 发布

武汉大学-王浩宇

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量177

点赞数 5

分类专栏： kawhy_机器学习笔记文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kawhiDK/article/details/140594498

版权

kawhy_机器学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

线性模型难以应对非线性问题，这种模型本身带来的限制被称为Model Bias。如下图所示的蓝色折线，多个这样的线重叠可以逼近曲线模型。这里引出了Sigmoid函数，其作用是替代这些蓝色折线，优点是连续可导。

上一节内容讲到了模型要考虑多个特征，对应不同的权重w，下图展示了如何用多个Sigmoid函数叠加得到模型。

下图使用线性代数表现图中的过程

以上就完成了ML的第一步，得到带有未知数的函数，后面要考虑的就是如何定义Loss以及如何优化求解。这和上一节的梯度下降方法是一样的，不同点就是未知数更多了。优化的过程依然是随机选初始值、计算gradient、更新 $\theta$ 。

接下来要讲到机器学习中一个十分重要的概念，batch和epoch。将所有要学习的N笔数据资料（训练集）分为很多个batch，每看完一次所有的batch叫做一个epoch。把所有的参数更新一次叫做一个update。sigmoid的数量与batchsize也都是hyperparameters。

与Sigmoid函数相似的，有ReLU函数，两个ReLU起到1个sigmoid函数的相似作用，在机器学习中都被称为Activation function（激活函数），这些激活函数就叫做Neuron，很多个组合在一起就叫做Neural network。每一排neural也叫做一个(hidden) layer，多排layer，所以是Deep。

在训练数据上表现更好，但在未知数据上表现更差的现象被称为Overfitting（过拟合）。

深度学习的训练会用到Backpropagation（反向传播），是一种比较高效的算Gradient的方法。

武汉大学-王浩宇

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。