深度学习
文章平均质量分 93
长命百岁️
这个作者很懒,什么都没留下…
展开
-
【UCAS自然语言处理作业二】训练FFN, RNN, Attention机制的语言模型,并计算测试集上的PPL
训练前馈神经网络,循环神经网络,注意力机制语言模型,并计算测试集PPL原创 2023-11-25 21:39:39 · 758 阅读 · 0 评论 -
【论文阅读】GPT系列论文详解
【论文阅读】GPT系列论文详解原创 2022-10-09 17:23:17 · 8343 阅读 · 1 评论 -
YOLO v1
文章目录1.流程介绍2.网络介绍3.Loss function4.限制1.流程介绍主要任务:将一幅图像分成 S x S 个网格,如果某个 object 的中心落在这个网格内,则这个网格就负责预测这个object每个网格要预测 B 个 bounding box,每个 bounding box 除了要预测位置之外,还要预测一个 confidence 值,每个网格还要预测 C 个类别的分数在使用的 PASCAL VOC 数据集上,一共有 20 个类别的物体。我们使用参数 S=7,B=2,C原创 2022-05-26 22:54:33 · 209 阅读 · 0 评论 -
【论文阅读】Attention is all you need(Transformer)
文章目录前言1.Abstract2.Introduction3.Background4.Model Architecture4.1. Encoder and Decoder Stacks4.2. Attention4.2.1. Scaled Dot-Product Attention4.2.2.Multi-Head Attention4.2.3. Applications of Attention in our Model4.3. Position-wise Feed-Forward Networks4.4原创 2022-05-21 22:09:57 · 2270 阅读 · 6 评论 -
【论文阅读】Masked Autoencoders Are Scalable Vision Learners(MAE)
文章目录1.Abstract2.Introduction3.Approach3.1.Masking3.2.MAE encoder3.3.MAR decoder3.4.重建目标3.5.简单的实施4.ImageNet Experiments5.Main Properties5.1.Masking ratio5.2.Decoder design5.3.Mask token5.4.Reconstruction target5.5.Data augmentation5.6.Mask sampling strategy原创 2022-04-08 22:08:24 · 3462 阅读 · 2 评论 -
Bert简介
文章目录1.前言2.Bert2.1主要任务2.1.1.完形填空2.1.2.预测下一个句子2.2.输入表示2.3.MLM(Mask Language Model)2.4.NSP2.5.总体架构3.Fine-tuning1.前言监督学习:给定训练数据 x 和 标签 y。使得 Model 对 x 的输出越接近 y 越好自监督学习:没有标签 y,我们将数据分成两份,使得 Model 对其中一部分的输出越接近另一部分越好BERT 就是自监督学习,利用非 Mask 的来预测 Mask 的部分2.Bert原创 2022-03-27 21:24:02 · 3459 阅读 · 0 评论 -
使用BERT + Bi-LSTM + CRF 实现命名实体识别
文章目录1.前言2.数据预处理2.1本地查看数据转换后的结果3.构建数据集4.数据集分割5.模型架构5.1模型初始化5.2前向传播过程6.模型训练6.1训练一个epoch6.2训练所有epoch6.3evaluate函数7.整体训练过程1.前言本文主要分析本次实验的代码,讲解主要流程和代码含义,而关注参数的选择和模型的选择后续可能还会更新 model 的原理如果有问题,欢迎评论或私聊讨论若分析过程出现错误,请及时指正,谢谢2.数据预处理原始标注:对句子中的每个字标注上一个标签,可以简单地原创 2022-03-26 23:59:52 · 14630 阅读 · 45 评论 -
Pytorch model.train()
文章目录1.前言2.作用及原因2.1.Batch Normalization2.1.1训练时的BN层2.1.2测试时的BN层2.2.Dropout3.总结1.前言在使用Pytorch进行模型的训练和测试时,我们总能在训练部分的最前面看到model.train(),在测试部分最前面看到model.eval()。这两种语法起到什么作用呢?对BN 和 Dropout 的介绍,可参考 Dropout & Batch Normolization_长命百岁️的博客-CSDN博客2.作用及原因主要是对B原创 2022-03-27 11:13:00 · 12082 阅读 · 5 评论 -
全连接层对于输入图像尺寸的限制问题
前言本文以CNNs 为例,说明含有全连接层的网络,为什么需要固定输入图像的大小CNN在处理图像级的分类任务时,CNNs是常用的模型。我们输入图像,网络会输出一个向量,该向量中每个位置的值,往往代表我们的输入图像属于对应的类的概率,概率最大的类就是分类的结果。因为输出是一个向量,而我们的输入是图像,至少是二维的(因为包含位置信息)。因此,我们需要全连接层来消除位置信息,将其转换成一维向量。我们知道CNNs网络的最后几层,往往是全连接层。我们对前面一些层的输出进行flatten操作(将矩阵展开成一维向原创 2022-03-11 19:48:41 · 3462 阅读 · 0 评论 -
Trigger_word_detection
实验日期2021.12.11实验环境# Keras==2.2.5 tensorflow==1.15.0实验内容构建音频数据集,并实现一个触发字检测(唤醒词检测)算法本次实验的触发词为 “activate”,每次听到一个 “activate”,算法都会触发一个响声我们规定说出 “activate” 为 “positive”,其他情况下都为 “negative”Data synthesis:Creating a speech dataset构建一个在不同环境下说出 “activate原创 2021-12-12 13:32:31 · 1312 阅读 · 0 评论 -
CGAN及代码实现
前言本文主要介绍CGAN及其代码实现阅读本文之间,建议先阅读GAN(生成对抗网络)CGANConditionalGenerativeAdversarialNetworkConditional Generative Adversarial NetworkConditionalGenerativeAdversarialNetwork我们知道,GANGANGAN 其实又叫做 UnconditionalGenerativeAdversarialNetworkUnconditional Generati原创 2021-12-02 17:30:12 · 5452 阅读 · 2 评论 -
GAN理论介绍
GeneratorGeneratorGenerator的目标是什么生成数据的分布和真实数据的分布越接近越好,这样的话,随机生成的一份数据才更接近真实数据中的一份数据输入是服从一种已知分布的数据,通过 GGG,得到服从一种新的分布的数据我们的目标是让生成的数据的分布和真实的数据的分布越接近越好这时候我们利用 Div(PG,Pdata)Div(P_G,P_{data})Div(PG,Pdata) 来表示两组数据之间的差异但是我们甚至不知道 PGP_GPG , PdataP_{data}Pdat原创 2021-12-02 10:34:08 · 2182 阅读 · 0 评论 -
GAN(生成对抗网络)
GeneratorGeneratorGenerator 和 NetworkNetworkNetwork 的区别可以输出一种分布的 NetworkNetworkNetwork , 我们就叫它 GeneratorGeneratorGenerator神经网络是根据输入 xxx 产生输出 yyy。输入 xxx 根输出 yyy 是一一对应的。生成器的输入是 xxx 和一个从已知分布中采样得到的 zzz ,利用不同的 zzz ,针对同一个 xxx 生成不同的 yyy ,来达到输出是一个分布的目的为什么需要原创 2021-11-25 11:27:29 · 1913 阅读 · 3 评论 -
R-CNN流程介绍
R-CNN非常好的解读(二)目标检测算法之R-CNN - 胖白白 - 博客园 (cnblogs.com)整体流程利用selective search将原图分为2000个proposal region对2000个proposal region的大小进行调整,调整为227 x 277,以作为CNN的输入利用CNN对2000个proposal region进行特征提取利用SVM对提取的特征进行分类修正检测框的位置分步介绍找出图片中可能存在目标的侯选区域region proposal(原创 2021-11-23 01:46:55 · 1930 阅读 · 0 评论 -
cs231n Assignment1--机器学习基本方法与深度学习尝试
实验日期2021.10.02 — 2021.10.06实验环境python 3.8.8 64-bitKNNKNN实验的核心就在于distance矩阵的计算。其中,计算方法分为两层循环,一层循环和无循环计算两层循环for i in range(num_test): for j in range(num_train): dists[i][j] = np.sqrt(np.sum(np.square(X[i , :] - self.X_train[j , :])))原创 2021-10-20 22:15:27 · 216 阅读 · 0 评论 -
Dropout & Batch Normolization
Regularization无正则项的模型结果training Accuracy:0.9478text Accuracy:0.915可以看到测试集的准确度小于训练集的准确度(https://s3.bmp.ovh/imgs/2021/10/cc65ea6438bb6f94.png#pic_center)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v0BbO7yv-1634740860153)(C:\Users\nishiyu\AppData\Roam原创 2021-10-20 22:44:31 · 937 阅读 · 0 评论 -
网络训练技巧--参数初始化与优化方法
实验日期2021.10.07实验环境python 3.8.8 64-bit(‘base’:conda)Initialization深度学习的参数权重是很重要的,设置不当可能会导致梯度消失或梯度爆炸(W的权重造成的影响)深度学习会有比较多的层数正向传播存在连乘反向传播也存在连乘连乘就意味着连乘的数大于1,乘积就会一直变大连乘的数小于1 , 乘积就会一直缩小一个好的初始化有以下两个主要优点能够加快梯度下降的收敛增加梯度下降收敛到较低训练(和泛化)误差原创 2021-10-20 23:14:00 · 688 阅读 · 0 评论 -
吴恩达深度学习作业04
Step by Step卷积补全zero_padX_pad = np.pad(X,((0,0),(pad,pad),(pad,pad),(0,0)),'constant',constant_values = 0) #第二个参数是对哪些维度的两边加怎么样的padding补全conv_single_step### START CODE HERE ### (≈ 2 lines of code)# Element-wise product between a_slice and W. Add原创 2021-10-29 00:37:51 · 571 阅读 · 0 评论 -
Style Transfer(PyTorch)
Style Transfer-PyTorchContent Losscontent loss用来计算原图片和生成的图片之间像素的差距,这里用的是卷积层获取的 feature map 之间的差距通过卷积层,有多少个卷积核就会生成多少个 feature_map(也就是一个卷积核的输出结果)公式为:Lc=wc×∑i,j(Fijℓ−Pijℓ)2L_c = w_c \times \sum_{i,j} (F_{ij}^{\ell} - P_{ij}^{\ell})^2Lc=wc×∑i,j(Fijℓ−Pi原创 2021-11-04 19:30:43 · 423 阅读 · 0 评论 -
RNN流程详解
RNN及其代码流程本文重点关注RNN的 整个流程,而不是BP的推导过程什么是RNNRecurrent Neural Network循环神经网络为什么需要RNN?普通的神经网络都只能单独地处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的**比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列; **当我们处理视频的时候,我们也不能只单独的去分析每原创 2021-11-12 15:40:40 · 2990 阅读 · 6 评论 -
Network Visualization (PyTorch)
Saliency MapsSaliency maps 是一个很快的方法来说明图片中的哪些部分影响了模型对于最后那个正确分类label的判断**Saliency Maps告诉我们图像中的每个像素对该图像分类评分的影响程度。**为了计算它,我们计算对应于正确类的非归一化分数(标量)对于图像中每个像素的梯度。如果图像形状为(3,H,W)(3,H,W)(3,H,W),那么这个梯度的尺寸也是(3,H,W)(3,H,W)(3,H,W)。这个梯度告诉我们:图像中的一个像素的微小变化将使分类评分发生多大的变化。为了计算原创 2021-11-18 11:06:12 · 2131 阅读 · 1 评论