读论文
文章平均质量分 65
机器学习论文
__lily_
这个作者很懒,什么都没留下…
展开
-
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT即Bidirectional Encoder Representations from Transformers。与ELMo和GPT不同,BERT是用来设计去训练深的双向的表示,使用没有标号的数据,联合上下文的信息。因为BERT模型的设计,使得可以只用加一个额外的一个输出层,在许多NLP的任务上就可以得到一个不错的结果,包括问答,语言推理等。(第一段)补充:GPT其实是单向的结构,使用左边的信息来预测未来,而BERT是使用了左侧和右侧的信息,是一个双向的ELMo使用的是RNN。原创 2024-04-12 22:32:19 · 1106 阅读 · 0 评论 -
ResNet
总结:1、残差块使得很深的网络更加容易训练,甚至可以训练一千层的网络2、残差网络对随后的深层神经网络设计产生了深远的影响,无论是卷积类网络还是全连接类网络。训练一个深的神经网络是一个比较困难的事情,这里使用一种残差连接的框架使得对深的神经网络的训练更加容易。提供了许多实验的证据,说明残差网络非常容易训练,并且能够得到很好的精度。原创 2024-04-11 20:17:10 · 237 阅读 · 0 评论 -
attention 和 self-attention
attention机制是一个比较宽泛的概念,简单来说只要QKV相乘就是注意力机制,但是并没有说明QKV是怎么来的。self-attention的QKV本质是是相等的,是由一个值分别进行线性变换后得到的。attention是包括了self-attention的。没有规定QKV怎么来,规定了QKV怎么做。Q和V不同源,K和V同源。原创 2024-04-10 21:48:49 · 169 阅读 · 0 评论 -
Attention is all you need
(序列转录模型:给一个序列,生成一个序列 eg:给一个中文,生成一个英文)在主流的序列转录模型中,主要使用的是带有encoder和decoder的复杂的循环或者是卷积神经网络,表现的比较好的模型中间会使用attention的机制。但是transformer的模型只使用了attention的机制,并用实验表明模型具有更好的并行性,而且需要的训练时间更少,并且transformer模型运用在一些泛化的模型上是比较好的。原创 2024-04-10 21:31:31 · 959 阅读 · 0 评论 -
Transformer
表示在生成b1的时候只能考虑a1,在生成b2的时候只能考虑a1和a2,在生成b3的时候只能考虑a1,a2和a3,在生成b4的时候考虑a1,a2,a3,a4。与AT不同的是,NAT是一次输入多个begin,但是这就有一个问题,如何确定输入的begin的数量(因为输入是不确定的)?过程概述图(只有红框里面的数据是未知的,需要通过training data找出来的,其余的数据都是已知的)与a1的关联性越强,即得到的α' 的值越大,那么最后计算b1的时候的影响就会越大,就会越接近。原创 2024-03-31 16:54:52 · 816 阅读 · 1 评论 -
AlexNet补充
每一个神经元有50%的概率被随机掐死,即随机阻断该神经元的前向和反向传播,那么每一个神经元与其它的神经元的合作就是随机的,打破了他们的联合依赖适应性。2、随图片的颜色和 光照等进行随机的变换,一张图会变成很多张图。1、对一张图片进行裁剪,平移转换等,一张图片可以变为很多张图片。sigmoid和tanh是饱和的激活函数,会造成梯度消失的问题,学习速率降低。减少过拟合之数据增强(增加图片的数量,参与训练)文章认为这种方法可以防止过拟合。把模型并行的放在两个GPU上。减少过拟合之dropout。原创 2024-03-30 17:02:21 · 107 阅读 · 0 评论 -
AlexNet
摘要的主要内容是说训练了一个很大很深的卷积神经网络用于对大量的图片进行分类,并且说明了测试的结果优于之前的数据;接着对模型进行了介绍,参数和神经元的熟练,池化层和全连接层等等;然后说使用GPU进行对模型进行了加速;最后说使用模型参加比赛,结果很好。ps:对于论文而言摘要写得并不是很好第一遍看过后文章的结果很好,使用神经网络实现的。原创 2024-03-30 13:18:04 · 807 阅读 · 0 评论 -
机器学习论文精读
然后直接去读。原创 2024-03-29 23:48:01 · 204 阅读 · 0 评论