自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 【代码的坑】模型参数是否可以反向传播

1. 虽然loss没有报错,但是我比较重要的部分代码不是可训练的,没有保存到模型的计算图中。初始化:保存中间变量的梯度:最后打印保存的梯度:结果就是[],说明我的这个参数并没有参与到计算图中,问题出在:这是我的代码,但是就是太像是用算法去解决这个问题,而不是神经网络,就很容易参数就不能反向传播。感觉神经网络主要是embedding在里面传,所以我就把类别转成embedding信息,然后就可以通过相似度计算等间接实现以上代码。2. 我这里面涉及到概率,但是你不.

2022-01-06 23:53:31 1042

原创 【NLP】句法信息在机器翻译(machine Translation)的应用

1. 最近有很多的工作都是在NMT任务中,让其考虑句法信息(源句法或者是目标句法)来提升模型的效果。所以接下来我就是稍微对这方面进行一些介绍(可能不是很全哦~可能理解比较片面) 2. 我们可以将其简单分为两类:Encoder侧加入句法,Decoder侧加入句法。 3. Encoder侧加入句法:主要是通过修改模型架构,使模型能够编码源句子的句法信息,使其获得的representation更加准确。例如ON_LSTM, Tree Transformer。...

2021-12-24 17:18:23 1011

原创 windows下查看服务器的tensorboard产生的图片

我们可能在训练神经网络的时候,想要将其loss以可视化的形式显式出来,所以用到tensorboard。 首先使用SummaryWriter函数记录产生的值。以下是一个示例,我记录了两种数据,分别对应两幅图。 from tensorboardX import SummaryWriter writer = SummaryWriter('plog') writer.add_scalar('loss/tra...

2021-12-21 11:52:26 592

原创 mac对虚拟机扩容

气死我了!觉得一定要写个博客,不然的话,今天下午感觉白忙活了,这是什么心理。 明天有门课程,需要用到虚拟机,但是我知道自己对虚拟机的水平,很垃圾···然后我万万没想到这么垃圾··· 好嘛,人家都卡在安装ns2,我在卡在ns2之前的依赖包了。目前还没解决,我已经放弃,选择另一个题目了。一. 扩容:先说扩容问题吧,他总是提醒我没有space了。然后有多种扩容方法,如果可以显示图形界面的,只需要按照下图所示即可 。 ...

2021-12-14 19:49:18 1213

原创 [面试] 二面

这次的实习面试问的问题以及代码考察能力跟之前的有点差距 1. 问题拆解能力,给你实际问题(比如判断用户对该视频能否完播问题) 2. 看重机器学习,比较细化,比如说决策树掉包返回的参数(属性的权重)是怎么确定的。以及二分类的时候为什么选择了决策树而不是用线性回归模型(优缺点) 3. 代码考察了大数据算法。水库采样问题。...

2021-11-24 12:17:47 1912

原创 【面试QA】实习一面

transformer使用的是点乘:A点乘B = scale 区别于叉乘:A 叉乘 B = vector K值交叉验证: 看Transformer论文原文 Transformer、bert、bert的各种变体。 解决过拟合的五种方法:1)减少模型参数。2)早停。3)数据增强,增大训练数据的规模。因为随着数据量的增加,模型无法过拟合所有样本,因此不得不进行泛化。4)正则化。5)dropout 要针对以后就职的岗位有了解,就比如说目前在用的工业化方法和最近发表的论文和技术!!!!!———所以要先确.

2021-11-16 16:50:56 1066

原创 [面试QA]大大小小面试问题[不定期更新]

1. 深度学习方面 1)NLP有哪些任务:分类任务、生成式任务、序列标注(分词、命名实体识别)、句子关系判断(entaliment、QA) 2)NLP算法了解哪些? Transformer的实现,为什么使用self-attention(其能够解决什么问题--长距离依赖问题以及并行化计算)、Resnet以及为什么要除以sqrt(d_model)2. 机器学习方面: 1)决策树:怎么确定应该使用哪个属性(信息增益),为什么使用信息增益(信息熵的概念),信...

2021-11-09 12:27:10 780

原创 生成模型之flow-based model

本来想在上一篇博客Blow后面写的,因为他属于是flow-based model,但是我不知道在哪里修改上一篇博客····· 目前主流的生成模型有三大类(我只用过后两类方法···)首先是component by component 生成是序列的,不确定生成的顺序以及比较好使,VAE的训练目标只是优化下界,GAN的训练又很不稳定。所以李宏毅老师介绍了Flow-based model,其是一次生成整个图片,不慢,并且优化目标就是极大似然估计而不是下界,...

2021-11-08 21:18:51 2029 1

原创 NLP之语音转换

1. 先上解决方法以及模型总结图:2. 目前方法主要是针对非并行数据解决。3. 因为解耦的方法在训练以及测试过程中,数据分布是不一样的。所以要加上2nd stage training。(因为没有label,所以要加上dis和classifier)4. cycleGAN与starGAN的区别:即cycleGAN训练好的网络只能实现一种转换。但是starGAN是可以通过输入不同的speaker vector实现任意的转换。其中speaker vector可以跟上面解耦方法一样,从one-..

2021-11-08 17:42:42 3044 1

原创 解决加载文件遇到str和bytes转换问题

1. 前情:当我从.h5文件中读取text的时候,发现里面的字符串表现形式都是这样的:b"so, i have been to ```"前面都有个b???然后更懵的是看着都是一个个str组成的呀,但是当我是用data[i]想要读取其中一个单词的时候,返回的是int类型的数据。2. 原因: 1)前面的b提示当前数据是bytes类型而非str类型,在python3中对两者是进行了区分的。 2)一般在保存文件的...

2021-11-08 16:34:09 518 1

原创 解决nohup使用print无输出问题

1. 我们经常会使用nohup后台挂起程序,比如nohup python main.py & 默认输出为nohup.out文件或者定义输出文件为ans.lognohup python main.py >ans.log 2>&1 &2. 但是有一天我突然发现ans.log中啥也没有,程序中要求print的输出也没有。nohup python -u main.py >ans.log 2>&1 &即可让程序直接将输出放...

2021-11-08 16:24:32 5420 5

原创 机器学习之贝叶斯分类器

今天看西瓜书的贝叶斯部分,对其进行的粗略的总结:(一张图放不下)以上比较精简,具体的还有一些小问题还得看原书

2021-11-07 15:21:22 506

原创 自然语言处理之语音识别(2)

上一节介绍的是LAS模型,标准的seq2seq model,因为decoder每一步其实考虑的是全部的encoder的输出,所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。先上一张李宏毅老师的模型总结图:从上到下,从左到右其实是可以发现模型发展的一些规律的。1. 语音的特点:因为语音的输入vector个数很多,但不一定每一个都会产生输出,所以采用的方法有:1)在vocab中增加,表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦,因为数据集中的labe.

2021-11-06 21:41:39 2565

原创 C++中int、long、double以及float的最大最小值

1. 今天刷leetcode 98题,遇到了int的最小值,给整懵了,所以想把这些什么最小值都搞懂!!64位机中,char 1字节(8bit),short 2字节(16bit),int 4字节(32bit), long 8字节(64bit)因为在题目中遇到的是带符号类型,所以short能表示的范围是:[,],int表示的范围是:[,],同理long类型表示的范围:[,]。其中在C++中可以使用INT_MIN,INT_MAX分别表示int的最大最小值。LONG_MIN,LONG_MAX表示lo..

2021-11-05 20:24:56 3441

原创 NLP基础知识之语音识别

1. 语音识别的输出类别:1)phoneme:输出为发音,比较简单,因为语音跟发音是一一对应的,但是需要一个词汇表,表示发音跟word的对应。2)Grapheme:字母或者token3)word:短语,V会很大4)morpheme:代表含义的最小单位5)byte:utf-8,适用于任何语言2. 输入特征:(具体的处理可以看下图,以MFCC为例子,如果不经过DCT,就是目前用的最普遍的fliter bank output)3. 那确定了输入以及输出,接下来介绍中间的模型。.

2021-11-05 16:35:53 3337 1

原创 使用GPU运行代码巨慢,或许是tqdm的锅

现象:我在跑transformer模型的时候,模型跑的很慢,而且可能第一次运行能跑一个batch然后卡了。第二次运行连第一个batch都没跑就卡了。 尝试过程:看了模型和参数都是在GPU上,而且使用 top 命令也不是因为CPU占满。 结果:发现罪魁祸首竟然是tqdm:换成模型就开始在GPU上欢快的运行起来啦...

2021-11-05 12:18:11 2351 4

原创 自然语言处理

希望每天都能跟大家分享自然语言处理知识!今天是NLP的入门哦。主要参考李宏毅老师的视频课程。1. 语音:可能性非常大 ,因此复杂度比较高。 同理,句子是可以有无穷长度的,也是非常复杂的2. 首先是介绍了NLP中关于语音的任务:语音识别、语音合成、语音分离、语音转换文本的任务:翻译、摘要生成、QA、聊天机器人。3. 语音感觉区分粒度更加细,比如同一个人说同一个话都会不一样,但是文本的话就一样。所以感觉文本一般都是从语种的角...

2021-11-04 14:52:50 480

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除