深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

1.2 线性模型

把输入的特征x乘上一 个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)

 

1.2.1分段线性曲线

  • 分段线性曲线:通过组合多个Hard Sigmoid函数来逼近复杂的非线性关系。
  • Sigmoid函数:一种S型函数,公式为y = c / (1 + e^{-(b+wx1)}),可以调整b、w、c来改变函数形状。如果x1 的值,趋近于无穷大的时候,e^{−(b+wx1) }这一项就会消失,当 x1 非常大的时候, 这一条就会收敛在高度为c的地方。如果x1 负的非常大的时候,分母的地方就会非常大,y 的值就会趋近于0.
  • 使用Sigmoid逼近Hard Sigmoid:通过调整Sigmoid函数的参数(b,w,c),可以逼近Hard Sigmoid,进而组合成复杂的分段线性曲线。

       改变w,改变斜率

       改变b,将函数左右移动

       改变c,改变高度

   灵活性:
  • 多特征带入组合成不同的函数,不仅使用单一特征x1,还可以使用多个特征x1, x2, ..., xn,通过线性组合后应用Sigmoid函数。
  • 使用矩阵和向量的乘法来简洁表示多特征输入的情况,即r = b + Wx

 优化:
  • 批量梯度下降:将数据分为多个批量(batch),每次使用一个批量来计算梯度并更新参数,可以提高计算效率并引入随机性。

1.2.2 模型变形

  • 激活函数:如Sigmoid和ReLU,用于引入非线性因素,使模型能够学习更复杂的映射关系。

  • 神经网络:由多个神经元(激活函数)层叠而成,通过逐层传递和激活函数处理输入特征,最终输出预测结果。
  • 每一排称为一层,称为隐藏层(hidden layer),很多的隐藏层就“深”,这套技术称为深度学习

  • 在训练数据和测试数据上的结果是不一致的,这种情况称为过拟合(overfitting)。

1.2.3 机器学习框架

我们会有一堆训练的数据以及测试数据如式所示,测试集就是只有x没有y

训练集就要拿来训练模型,训练的过程是3个步骤。

1. 先写出一个有未知数θ 的函数,θ 代表一个模型里面所有的未知参数。fθ(x)的意思就 是函数叫fθ(x),输入的特征为x,;

2. 定义损失,损失是一个函数,其输入就是一组参数,去判断这一组参数的好坏;

3. 解一个优化的问题,找一个θ,该θ可以让损失的值越小越好。让损失的值最小的θ为 θ∗,即 θ∗ = arg_{\theta }min L 

有了θ∗ 以后,就把它拿来用在测试集上,也就是把θ∗带入这些未知的参数,本来fθ(x) 里面有一些未知的参数,现在θ 用θ∗ 来取代,输入是测试集,输出的结果存起来,上传到 Kaggle 就结束了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值