- 博客(91)
- 收藏
- 关注
原创 2.随机变量及其分布
定义在样本空间Ω\OmegaΩ上的实值函数X=X(ω)X=X(\omega)X=X(ω)称为随机变量,常用大写字母X,Y,ZX,Y,ZX,Y,Z等表示随机变量,其取值用小写字母x,y,zx,y,zx,y,z等表示。 加入一个随机变量仅可能取有限个或可列个值,则称其为离散随机变量,加入一个随机变量的可能取值充满数轴上的一个区间(a,b)(a,b)(a,b),则称其为连续随机变量,其中aaa可以是−∞-\infty−∞,bbb可以是+∞+\infty+∞ 随机变量XXX是样本点ω\omegaω的一个实值
2024-10-13 12:16:12 1190
原创 1.随机事件与概率
1933年苏联数学家柯尔莫戈洛夫首次提出了概率的公理化定义。 设Ω\OmegaΩ为一个样本空间,FFF为Ω\OmegaΩ的某些子集组成的一个事件域,如果对于任一事件A∈FA\in FA∈F,定义在FFF上的一个实值函数PAP(A)PA非负性公理若A∈FA\in FA∈F,则PA≥0;P(A)\ge 0;PA≥0;正则性公理PΩ1PΩ1;可列可加性公理若A1A2⋯An⋯A1A2⋯An。
2024-09-21 12:10:51 1023
原创 5.6.BERT
NLP中的迁移学习,使用预训练好的模型来抽取词、句子的特征,例如word2vec或语言模型,不更新预训练好的模型。需要构建新的网络来抓取任务需要的信息,而word2vec忽略了时序信息,语言模型也只看一个方向。 BERT的动机:首先是基于微调的NLP模型,预训练的模型也抽取了足够多的信息,新的任务只需要增加一个简单的输出层。
2024-08-10 15:30:00 742
原创 5.5.transformer
Transformer是由编码器和解码器组成的,基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码在分别输入到编码器和解码器中: 从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为sublayer)。 第一个子层是多头自注意力(multi-head self-attention)汇聚;
2024-08-10 06:15:00 621
原创 5.4.自注意力
在有了注意力机制后,我们将词元序列输入注意力池化中,以便同一组词元同时充当查询、键和值。具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为自注意力。 给定一个由词元组成的输入序列x1⋯xn,其中任意xi∈Rd,该序列的自注意力输出为一个长度相同的序列y1⋯ynyifxix1x1⋯xnxn))∈Rd 函数f。
2024-08-09 11:45:00 1003
原创 5.3.使用注意力机制的seq2seq
动机:机器翻译中,每个生成的词可能相关于源句子中不同的词,也就是说,我们希望翻译后的句子中,每一个词元的位置对应源句子的位置。 编码器对每次词的输出作为key和value(一样的) ,解码器RNN对上一个词的输出是query,注意力的输出和下一个词的词嵌入合并进入RNN 使用注意力机制,使得与上一个输出相近的权重更大,提高准确性。ct′t1∑Tαst′−1htht 其中,时间步t′−1的解码器隐状态st′−1。
2024-08-09 09:15:00 1881
原创 5.2.注意力分数
在上一节中,阐述了注意力机制,现在将其拓展到高维度:假设queryq∈Rq,m对key-valuek1v1⋯这里ki∈Rkvi∈Rvfqk1v1⋯kmvm))i1∑mαqkivi∈Rvαqkisoftmaxaqki))∑j1mexpaqkj))expaqki))∈R。
2024-08-08 11:15:00 895
原创 4.10.编码器-解码器
机器翻译是序列转换模型的一个核心问题,其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出,我们可以设计一个包含两个主要组件的架构: 第一个组件是编码器(encoder):它接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder):它将固定形状的编码状态映射到长度可变的序列。这被称为编码器-解码器架构。
2024-08-08 09:15:00 344
原创 4.11.seq2seq 序列到序列学习
使用两个循环神经网络的编码器和解码器,应用于序列到薛烈类的学习任务。 在图中,特定的""表示序列结束词元。一旦输出序列生成此词元,模型就会停止预测。在循环神经网络解码器的初始化时间步中,有两个特定的设计决定: 首先,特定的""表示序列开始词元,它是解码器的输入序列的第一个词元。 其次使用循环神经网络编码器最终的隐状态来初始化解码器的隐状态。 编码器是一个RNN,读取输入句子(可以是双向,因为encode不用预测,有上下文的) 解码器使用另一个RNN来输出。
2024-08-08 06:00:00 1039
原创 5.1.注意力机制
"随意"就是随着自己意愿去做一些事,比如有一系列白色的东西,有一个红色的杯子在里面,非常引人注目,那么你的视线看向他,就是不随意线索,因为这不是你主观去看的,只是杯子很显眼。而如果你想读书了,你就在这些东西里面找到书,将注意力放在不那么显眼的书上,这就是随意线索。
2024-08-08 05:00:00 946
原创 4.12.束搜索
为了量化解码器的计算代价,用y表示输出词表,其中包含eos,词表大小则为∣y∣,指定输出序列的最大词元数为T′,则我们的目标是从所有O∣y∣T′个可能得输出序列中寻找理想的输出。当然,对于所有输出序列,在eos之后的部分将在实际输出中丢弃。
2024-08-08 04:15:00 668
原创 4.7.深层循环神经网络
就是更深了,因为之前的网络都只有一层隐藏层,弄多一点 我们将多层循环神经网络堆叠在一起,通过对几个简单层的组合,产生了一个灵活的机制。上图展示了一个具有L个隐藏层的深度循环神经网络,每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前步。
2024-08-07 04:45:00 654
原创 4.6.长短期记忆网络(LSTM)
长短期记忆网络的设计灵感来自于计算机的逻辑门。长短期记忆网络引入了(memory cell),或简称为(cell)。有些文献认为记忆元是隐状态的一种特殊类型, 它们与隐状态具有相同的形状,其设计目的是用于记录附加的信息。
2024-08-07 01:00:00 1008
原创 4.4.循环神经网络RNN
htϕWhhht−1Whxxt−1bhotϕWhohtbo 容易注意到,去掉隐藏层后(Whhht−1这一项),和MLP完全一样。
2024-08-06 13:30:00 729
原创 4.5.门控循环单元GRU
对于一个序列,不是每个观察值都是同等重要的,可能会遇到一下几种情况:早期观测值对预测所有未来观测值都具有非常重要的意义。考虑极端情况,第一个观测值包含一个校验和,目的是在序列的末尾辨别校验和事否正确,我们希望有某些机制在一个记忆元里存储重要的早期信息。如果没有这样的机制,我们将不得不给这个观测值指定一个非常大的梯度。一些词元没有相关的观测值在对网页内容进行情感分析时,可能一些辅助的HTML代码与网页传达的情绪无关,我们希望有一些机制来跳过隐状态中的此类词元序列的各个部分存在逻辑中断。
2024-08-06 12:15:00 1696
原创 4.3.语言模型
假设长度为T的文本序列中的词元依次为x1x2⋯xT。于是,xT1≤t≤T) 可以被认为是文本序列在时间步t处的观测或标签。在给定这样的文本序列时,语言模型Px1x2⋯xTxt∼pxt∣x1⋯xt−1。
2024-08-05 18:15:00 1432
原创 4.2.文本预处理
len 对于return中的re,是 Python 的re模块中的一个函数,它用于替换字符串中所有匹配给定模式的子字符串。那么意思就是用空格替换不是26个字母的符号。
2024-08-05 17:30:00 625
原创 4.8.双向循环神经网络
对于任意时间步ttt,给定一个小批量的输入数据Xt∈Rn×dXt∈Rn×d(样本数nnn,每个示例中的输入数ddd),并且令隐藏层激活函数为ϕ\phiϕ。在双向架构中,我们设该时间步的前向和反向隐状态分别为H→tH←t∈Rn×hHtHt∈Rn×h,其中hhh是隐藏单元的数目。
2024-08-04 10:23:22 864
原创 3.11.样式迁移
使用卷积神经网络,自动的将一个图像中的风格应用在另一图像之上,即样式迁移(style transfer) 为了完成这一过程,我们需要两张输入图像:一张是内容图像,一张是风格图像,随后使用神经网络修改内容图像,使其在风格上接近风格图像。
2024-08-04 10:14:31 1072
原创 3.10.全卷积网络FCN
FCN是用来深度网络来做语义分割的奠基性工作,用转置卷积层来替换CNN最后的全连接层,从而可以实现对每个像素的预测 CNN(卷积神经网络)可以认为是一个预训练好的模型。CNN的最后一层是全局平均池化层,无论是什么形状的输入,最后输出都是1*1的,这对像素预测不太好1×1卷积层用来变换输出通道,降低通道数,转置卷积层用于把图像放大。
2024-08-04 10:13:26 846
原创 3.9.转置卷积
目前为止,在卷积神经网络层中,通常会减少下采样输入图像的空间维度(高和宽)。然而如果输入和输出图像的空间维度相同,在以像素级分类的语义分割中将会很方便:输出像素所处的通道维可以保有输入像素在同一位置上的分类结果。 为了实现这一点,可以使用另一种类型的卷积神经网络层,它可以增加上采样中间层特征图的空间维度,用于逆转下采样导致的空间尺寸减少。
2024-08-04 10:12:08 676
原创 3.8.语义分割
一个用于加载VOC数据集的自定义数据集"""# 不能用resize,因为VOC里面的图片大小不同,不过拉伸的话,label也要拉伸,需要做插值处理,这很困难# 所以使用crop_size进行裁剪#丢弃小图片,比如我们要训练240*240的,如果比这个小,就丢弃了,我们没有做拉伸。
2024-08-01 22:11:51 433
原创 3.7.物体检测算法
首先使用启发式搜索算法来选择锚框,使用预训练模型对每个锚框抽取特征,训练一个SVM来对类别分类,最后训练一个线性回归模型来预测边缘框偏移。 R-CNN比较早,所以使用的是SVM。
2024-08-01 22:10:27 1911
原创 3.6.锚框
一类目标检测算法是基于锚框的,步骤如下: 使用多个被称为锚框的区域(边缘框),预测每个锚框里是否含有关注的物体,如果有,则预测从这个锚框到真实物体边缘框的偏移(s是缩放比,r是宽高比)
2024-07-30 21:10:19 530
原创 3.2.微调
对于一些样本数量有限的数据集,如果使用较大的模型,可能很快过拟合,较小的模型可能效果不好。这个问题的一个解决方案是收集更多数据,但其实在很多情况下这是很难做到的。
2024-07-29 20:39:11 520
原创 3.1.数据增广
以图片为例,在不同的灯光,色温,以及灯光反射的影响下,对识别可能会造成很大影响。这时候我们希望样本有更多的多样性,则可以在语言里面加入各种不同的背景噪音,或者改变图片的颜色和形状。
2024-07-29 20:37:23 516
原创 2.11.ResNet
动机:我们总是想加更多层,但加更多层并不总是能改进精度可以看出F1到F6模型越来越大,但F6距离最优解却总变远了,反而效果不好,通俗的来说就是学偏了,实际上我们希望是这样的: 更大的模型总是包含之前的小模型,则结果至少不会更差。 这也是残差网络(ResNet)的核心思想:每个附加层都应该更容易地包含原始函数作为其元素之一。
2024-07-28 20:31:09 1271
原创 2.10.批量归一化
最后导致收敛变慢。 或许我们可以通过固定输出和梯度的特定分布,即均值和方差在一定范围内,来进行优化,以提高数据和损失的稳定性。
2024-07-28 20:28:20 333
原创 2.8.NiN
相较而言,卷积层需要较少的参数ci×c0×k2,但卷积层后的第一个全连接层的参数会非常大ci×co×k2×全连接层数,那么可以考虑不适用全连接层,而在每个像素的通道上分别使用多层感知机。
2024-07-27 21:50:57 408
原创 2.5.LeNet
先试用卷积层来学习图片空间信息,然后使用全连接层来转换到类别空间 第一层卷积层要padding一下,收集边框的信息,然后增加一下输出通道,激活后平均池化,输出一个1*6*14*14的向量,图变小了,但输出通道便多了,实际上信息还是变多了。 第二层卷积继续压缩信息,压缩到[1,16,5,5]。 然后flatten变为一维的,进行全连接。
2024-07-22 22:45:33 355
原创 2.4.池化层
当检测较底层的特征时,我们通常希望这些特征保持某种程度上的平移不变性。例如,如果我们拍摄黑白之间轮廓清晰的图像X,并将整个图像向右移动一个像素,即,则新图像Z的输出可能大不相同。而在现实中,随着拍摄角度的移动,任何物体几乎不可能发生在同一像素上。即使用三脚架拍摄一个静止的物体,由于快门的移动而引起的相机振动,可能会使所有物体左右移动一个像素(除了高端相机配备了特殊功能来解决这个问题)。 即卷积层对像素变化太敏感了。
2024-07-22 22:44:01 810
原创 2.3.多输入多输出通道
彩色图像具有标准的RGB通道来代表红、绿和蓝。但是到目前为止,我们仅展示了单个输入和单个输出通道的简化例子。这使得我们可以将输入、卷积核和输出看作二维张量。当我们添加通道时,我们的输入和隐藏的表示都变成了三维张量。例如,每个RGB输入图像具有3×ℎ×𝑤的形状。我们将这个大小为3的轴称为通道(channel)维度。
2024-07-21 22:10:57 925
原创 2.2.填充和步幅
我们已经知道,卷积的输出形式取决于输入形式和卷积核的形式。 此外还有其他因素会影响输出的大小。假设以下情景: 有时,在应用了连续的卷积之后,我们最终得到的输出远小于输入大小。这是由于卷积核的宽度和高度通常大于1所导致的。比如,一个240×240像素的图像,经过10层5×5的卷积后,将减少到200×200像素。如此一来,原始图像的边界丢失了许多有用信息。而填充是解决此问题最有效的方法;有时,我们可能希望大幅降低图像的宽度和高度。例如,如果我们发现原始的输入分辨率十分冗余。步幅。
2024-07-21 22:08:44 740
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人