机器学习入门-神经网络的实现学习笔记

感知机与神经网络的主要区别在于激活函数。激活函数必须使用非线性函数,因为使用线性函数的问题在于,不管如何加深层数,总是存在与之等效的“无隐藏层的神经网络”,这样便无法发挥多层网络带来的优势。因为神经网络的激活函数必须使用非线性函数。
机器学习问题分为“学习” 和“推理”两个阶段。学习阶段进行模型学习,推理阶段,用学到的模型对未知的数据进行推理(分类)。 推理阶段不需要输出层的softmax函数。输出层使用softmax函数(将前一层score结果正规化后输出)与神经网络的学习有关。推理阶段只需要知道分类结果就可以,即找到分数最大值。而学习阶段则需要将输出误差反馈到前一层更新权重。因此需要softmax函数。
机器学习实质是利用训练数据计算损失函数,找到使该值尽可能小的参数。考虑到有些训练数据很庞大,因此选择数据中的一批数据作为训练数据,(称为mini-batch,小批量)
梯度法是解决机器学习最优化问题的常用方法。(通过不断沿梯度方向前进逐渐减小函数值的过程就是梯度法)。神经网络中的梯度是指损失函数关于权重参数的梯度。神经网络学习的最初目标是掌握泛化能力,因此,每经过一个epoch,我们都会记录下训练数据和测试数据的识别精度。(一个epoch表示学习中所有训练数据均被使用过一次时的更新次数。) 
当训练集和测试集的误差都很高,但是准确度都很低,则可能存在欠拟合。 此时增加数据量是没效果的,可增加模型参数:如构建更多特征或减小正则项。当训练集准确度高于测试集,可能出现过拟合。此时,可以增加训练的数据量,降低模型复杂度,增大正则项或者通过特征选择减少特征数。
利用数值微分计算神经网络的权重参数的梯度虽简单易实现但是耗时太长,高效计算权重参数的梯度的方法是误差反向传播法计算图是学习和理解误差反向传播法的重要工具。计算图一大优点是局部计算(偏导),另外使用计算图可通过反向传播高效计算导数。反向传播的原理是基于链式法则的。(反向传播:沿着相反的方向,乘上局部导数). 加法节点的反向传播将上游的值原封不动地输出到下游. 乘法节点的反向传播会乘以输入信号的翻转值,然后输出到下游。反向传播时,将要传播的值除以批次的大小(batch_size)后,传递给前面的层是单个数据的误差。

分类问题中:

输出层使用softmax函数,损失函数使用交叉熵误差

回归问题中:

输出层使用 恒等函数,损失函数使用平方和误差

最终都能得到输出与真实标签的差分,神经网络的反向传播将输出与真实标签的误差高效地传递给前面的层,并通过调整权重参数是的神经网络的输出更加接近真实标签。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清韵逐梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值