神经网络学习笔记:

神经网络可以被证明为通用函数逼近器 universal function approximatore

transfomer

为什么position encoding 可以直接和 input encoding 相加 而不会造成信息的绞缠。

在这里插入图片描述

RAG(Retrieval Augmented Generation)检索增强技术

正则化惩罚

分为L1范数和L2范数

共同的目的是为了防止模型过拟合

L1范数:加入权重W的绝对值之和到损失函数里面

特点是:可以将不重要的特征权重值推到/惩罚到0 从而生成稀疏的权重特征矩阵 提取重要特征

L2范数:加入权重W的平方和到损失函数里

特点是:让all特征更平滑 均匀的考虑all特征 不会产生稀疏矩阵 模型保留一定的复杂性

损失函数:交叉熵函数

-Ylog(Yi) 优点 相对于简单的平方损失函数 梯度更大 收敛越快 加速学习

平方损失函数 梯度更大 收敛越快 加速学习

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值