自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 一篇小论文:VGGish-BiGRU网络

github:在这里(含代码和论文)Step1:mel_features.pyimport numpy as npdef frame(data, window_length, hop_length): num_samples = data.shape[0] num_frames = 1 + int(np.floor((num_samples - window_length) / hop_length)) shape = (num_frames, window_length) +

2022-04-12 18:07:43 3553 9

原创 再梳理一下seqtoseq,encoder-decoder,attention,transformer的概念

1.encoder-decoder模型不是具体的某一种算法,而是一类算法的统称,经常用于NLP领域(比如 中文翻英文)在这里,encoder和decoder都可以选择cnn,rnn,lstm,birnn,gru等(可以自由组合)2.seqtoseqseqtoseq是根据rnn引申出来的变种,但后续又跳出rnn的概念,加入了cnn,lstm网络以进行应用我理解的seqtoseq就是把两个rnn结合在一起(有三种结合方法)以实现输入N输...

2022-04-07 10:36:04 1882

原创 对CTC、RNA、RNN-T的理解

首先,二者都是解决时序类问题的CTC(一种损失函数):传统对于传统语音识别声学模型的训练,每一帧所对应的标签都必须要确定,只有这样才可以对模型进行训练,所以传统方法在训练模型之前必须对数据进行预处理,也就是做语音对齐。但是为了确保对齐更准确,语音对齐的过程需要进行多次反复的迭代,这是一个非常耗费时间耗费人力的工作。而CTC的方法是关注一个输入序列到一个输出序列的结果,所以它只会考虑预测输出的序列是否和真实的序列接近或相同,而不会考虑预测输出序列中的各个结果在时间点...

2022-04-04 18:20:20 4381

原创 对batchsize的浅显理解

下午的时候突然想到这个经常见的东西:batchsize那就把思路捋一遍叭用很笨的方法理解:(借鉴这个推文)游戏:贴鼻子Train假设甲是贴鼻子的人A,B,C,D,E,F,G,H人(batchsize=8)是提出移动建议的人(左移2cm,右移3cm这样子),这时候甲 会根据8个人的建议进行移动(可能他会取平均,中位数,众数等优化算法),而且甲学习东西也是有快慢的,学的太快了反而可能会不好(因为最后的人可能提不了建议就已经贴到鼻子了,这是学习率)并且他把他前进的记录记下来方便他后续做

2022-04-01 22:59:29 697

原创 Attention和transformer

attention已经在上篇文章末尾讲过transformer:它抛弃了传统的CNN和RNN,整个网络结构完全由Attention机制组成。具体来讲是由self-Attention和Feed Forward Neural Network组成transformer采用Attention机制是因为:RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:1 时间片t的计算依赖t-1时刻的计算结果...

2022-04-01 22:08:45 1435

原创 对RNN及其变种的梳理

目录1.RNN 1.1 输入为N,输出为N 1.2输入为1,输出为N1.3 输入为N,输出为11.4 输入为M,输出为N 1.5 双向RNN(BiRNN)2.LSTM 2.1 LSTM 2.2 Bi-LSTM 2.3.Multi-Layers-LSTM 2.4.Grid LSTM 2.5.Graph LS...

2022-04-01 19:14:43 831

原创 看的一篇硕士论文

电子科技大学《基于深度学习的呼吸应肺病听诊研究与应用》ps:估计是 呼吸音 而不是 呼吸应顺着文章简单梳理一下思路:摘 要1.研究内容:呼吸音传统研究呼吸音的方法是听诊器,而现在研究呼吸音的方法是深度神经网络2.研究难点:a.目前最大的呼吸数据集是ICBHI,仅920条音频模型太少b.传统的CNN模型不能很好利用呼吸音的时间特征3.解决办法:a.改良呼吸音特征提取与优化过程:b....

2022-03-29 23:35:28 1450 3

原创 Week1

一.数据集: ICBHI 2017挑战赛 呼吸音数据库总共5.5小时的录音,包含6898个呼吸周期。其中有1864个爆裂声(crackles) 、886个喘息声(wheezes) 、506个爆裂声和喘息声的结合(both crackles and wheezes)数据集中是 126个人的920段音频(有注释txt文件和呼吸wav文件)解释:(1).126个人中的每个人根据采集位置(气管、胸腔左前、胸腔右前等位置)和采集设备(麦克风、听诊器等设备)等不同,录制若干段音频,共计920段音频(

2022-03-15 18:13:50 3359 7

原创 term1总结

1.熟悉python,熟练使用pytorch框架2.复现了网上的几个经典的例子,刚开始的例子重在学习,后边的例子就是完全复现小项目来做的以下是我后期复现别人做的几个小项目:双向LSTM实现文本情感分析week11&12&13(2021.11.27-2021.12.17)数据集是25000条英文影评,将这些英文影评经过数据预处理、分割、整合到数据装载,到双向LSTM神经网络中进行训练,再经过验证集,最后在测试集的准确率为79.8%Resnet实现手势识别wee...

2022-01-17 16:40:36 1215

原创 week11&12&13(2021.11.27-2021.12.17)

这学期最后一次更新了,后续准备期末考试。下学期接着更这周看的是双向lstm的内容Step1.双向lstm的原理Step2.代码实现参考文章:[深度学习] PyTorch 实现双向LSTM 情感分析_小墨鱼的专栏-CSDN博客_pytorch 双向lstmRuntimeError: cudnn RNN backward can only be called in training mode_沉迷单车的追风少年-CSDN博客RuntimeError:CUDA error:out

2021-12-16 16:59:32 365

原创 week10(2021.11.20-2021.11.26)

这周看的关于ResNet(残差网络)的内容Step1首先来复习一下CNN的发展历史1998年 LeNet处理手写字体识别 CNN领域的果蝇 2012年 AlexNet 8层神经网络 2014年 GoogleNet 比赛第一名(应用局限,网络复杂) 2014年 VGG 比赛第二名 VGG(应用广泛) 2015年 ResNet 层数非常多,错误率低 当VGG出现时,大家觉得网络层数越多,最后的效果越好...

2021-11-25 20:02:55 585 1

原创 week9(2021.11.13-2021.11.19)

Step1 消化一下上周的代码,重新加一些东西参考:PyTorch实现图像分类-CIFAR10数据集_Knight的博客-CSDN博客_pytorch实现cifar10分类 再上周的基础上,增加了1显示图像数据的代码。2评价神经网络的方式(用标签)3保存训练1.显示图像的代码:#定义显示方法:import numpy as npimport matplotlib.pyplot as pltdef imshow(img): #输入数据:类型(torch.ten...

2021-11-18 16:04:37 1429

原创 week8(2021.11.5~2021.11.12)

Step1 实验室的服务器配置参考: 1.服务器环境配置(Anaconda+pytorch)_是皮卡丘奥-CSDN博客_服务器配置anaconda ​​​​​​​ 2.【Pytorch】在实验室linux系统服务器上搭建自己的pytorch-gpu环境过程详解!一:下载软件:ZeroTier One MobaXtermZeroTier One会有一个node id(自动生成的)node id记得给服务器管理员,然后他会给你账号和密码(默认:账号是名字,密码是123...

2021-11-11 21:12:24 1201

原创 week6&7(2021.10.23-2021.11.5)

Step1一.RNN:递归神经网络 在输入和输出都为序列时候常用 例如:语音识别(音频到文字),翻译(汉语文字到英语文字)循环神经网络的数据是循环传递的,输入x经过隐含层到输出y,在隐含层的结果h也会作为下次输入的一部分,循环往复,如下图所示:第一层x0为输入,y0为输出第二层x1和h0为输入,y1为输出... ... ...h0,h1等隐藏向量的目的:提高网络的记忆力,为了重视序列信息(举个例子:图片很容易...

2021-11-03 21:52:00 688

原创 week5(2021.10.16~2021.10.22)

Step1 深度学习——吴恩达[双语字幕]吴恩达深度学习deeplearning.ai_哔哩哔哩_bilibili感觉这个讲的挺好的Step2 多分类一.代码:Step3 音频检索领域的文献阅读

2021-10-25 16:47:14 116

原创 week4(2021.10.9~2021.10.15)

Step1总结Step2接上周Step6的 (未完待续)三.文本情感分类 1.数据集的准备 2.模型构建 3.模型训练 4.模型评估# 数据准备import torchfrom torch.utils.data import DataLoader, Datasetimport osimport redef tokenlize(content): content = re.sub("<.*?>", " ", conte...

2021-10-17 21:07:27 153

原创 week2&3(2021.9.25-2021.10.8)

Step1 跟着课程学习,第一周的经验告诉我由于没有太多的机器学习思维,因此需要看一些简单的视频学习PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】_哔哩哔哩_bilibili的第P16讲到了nn.Module的使用,很好地描述了上周的API线性回归的原理,这次终于听懂了定义函数以及继承父类代码从 14行 开始运行。首先,设定一个神经网络tudui,tudui按照Tudui()方法执行。其中,Tudui()是nn.Module的子类,nn.Module就是一个pytorch

2021-10-08 13:30:33 230

原创 week1(2021.9.17-2021.9.24)

0基础,跟着Pytorch 入门到精通全教程 卷积神经网络 循环神经网络_哔哩哔哩_bilibili

2021-09-24 16:31:39 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除