对神经网络理解的个人记录

第一次记录

一、 神经网络为什么可以拟合函数、非线性函数

第一个小短片:讲解神经网络为什么可以拟合函数,拟合非线性函数:
地址: 神经网络解释

二、 用向量表示特征(语音、文本、视频)。然后如何计算向量之间的相似度

第二个小短片说明了,用向量表示特征。然后如何计算向量之间的相似度。
地址: 向量相似度计算

2.1 欧氏距离的计算

在这里插入图片描述
在这里插入图片描述

2.2 点积运算

在这里插入图片描述

2.3 余弦相似度计算

  1. 余弦相似度定义

在这里插入图片描述
在这里插入图片描述

  1. 结论: 两个向量的余弦相似度等于两个向量的点积除以两个向量的模长

在这里插入图片描述

  1. 两个向量的余弦相似度也等于, 两个向量的标准化后的点积相似度
    在这里插入图片描述

… 后续持续记录对自己有帮助的视频

第二次记录

过拟合与欠拟合的直观图

在这里插入图片描述

为什么随机批次梯度下降要经过多个epoch?

个人理解:
因为随机梯度下降是,随机取出一些批量来进行梯度下降算法。所以一次取样并不能表示所有梯度下降。因此通过epoch来多次在数据集上进行随机梯度下降,可以让随机梯度下降收敛到局部最优解。

方差过大与偏差过大的理解

在这里插入图片描述

交叉熵为什么做损失函数?log从何而来?

可以理解成,一个信息量的定义函数为fx, 而相同信息量是两种计算方式,为了融洽定义 和 用数学、概论的计算方式,因此,在定义的时候要做一些操作使得,兼容。 这里熵,计算信息量是计算夺冠的概率, 所以f(夺冠) = f(进决赛) + f(赢下决赛),而概率计算是一个乘法的关系。所以如何让定义使得一个加法变成乘法关系, 显然就用到了log函数。

在这里插入图片描述

图片上 1/8的信息量更大(也就是f(x),x越小信息量越大), 而log是单调递增的。因此 log下的 f(1/2)、f(1/4)要加上负号使得定义变得单调递减。 以e或者以2为底都行,以2为底计算类似于于以抛硬币的概率计算,夺冠的概率。

在这里插入图片描述

信息量的概念

信息量可以当作,一个事情从不确定到确定他的难度有多大。
例如: 阿根廷夺冠的信息量小(比如1/8),而中国足球进决赛的信息量大(比如1/2的16次方)。

熵肯定不是信息量相加, 因为熵代表了混乱程度,图片中显然左边的对局信息量更小,但是实力悬殊,谁获胜都不一定,所以熵一定是最大的,但是信息量加和显然小于右侧。

在这里插入图片描述

所以 要乘上每个信息量的贡献度

在这里插入图片描述

根据信息量的理解,就可以定义熵了

一个事件的信息量 (-log 2 pi) 乘以 这个事件发生的概率 pi。
最后将这些加起来,就是整个系统的熵。

在这里插入图片描述

知道了熵,我们看看什么是相对熵(KL散度)

在这里插入图片描述

以 P为基准,看Q与P系统信息相差多少?
所以FQ(qi) - FP(pi) 等于0,说明两个概率模型是相等的,如果不等于0则说明两个概率模型是有区别的。

在这里插入图片描述

所以KL散度就是: 交叉熵 - P的熵。
交叉熵大于 P的熵的时候,交叉熵越大, Q和P越不像。
同理,交叉熵小于P的熵的时候,交叉熵越小,Q和P越不像。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

所以KL散度, 要么等于0,要么大于0。

交叉熵如何应用到神经网络‘

交叉熵和极大似然估计的式子很像,
区别: 交叉熵的log是在定义里融洽的,可以看上文,以2为底计算出来是比特,

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值