经典论文
文章平均质量分 93
论文阅读笔记
pepsi_w
这个作者很懒,什么都没留下…
展开
-
ALBERT: A LITE BERT FOR SELF-SUPERVISEDLEARNING OF LANGUAGE REPRESENTATIONS
越大的模型在自然语言表征上进行预训练后通常能在下游任务中表现更好,这样下区会加重GPU/TPU的负担,并且训练时间会更长。于是,我们提出了两种方法来降低硬件消耗并增加BERT的训练速度。综合来看,我们提出的方法比原始的BERT规模更好,并且加入了自监督损失,对句子间的连贯性进行建模,实验表明该模型有助于多句子输入的下游任务。往往大规模的模型会带来更好的效果,但由于硬件的限制不能再对BERT进行加深加宽。原创 2022-10-25 10:40:00 · 841 阅读 · 0 评论 -
Bert:Pre-training of Deep Bidirectional Transformers forLanguage Understanding
本文提出了一种新的语言模型-Bert,由transformer中的标准的双向编码器表示。该结构通过在所有层中对左右两边上下文进行联合调节,来对无标签文本进行预训练。实验证明,在该预训练模型上加入特定输出层后能够在多个文本任务中取得最好的成绩。包括将GLUE分数提升到了80.5%,7.7个百分点的绝对提升。和。前者(如ELMo)使用特定的任务架构,包括将预训练的表征作为额外的特征。后者(如GPT)引入最小的特定任务参数,简单地迁移所有预训练参数来在下游任务上进行训练。原创 2022-10-06 19:45:50 · 754 阅读 · 0 评论 -
GNN博客-A Gentle Introduction to Graph Neural Networks
全文可以分为四个部分,1)什么样的数据能被表达成图;2)图表和其他数据之间的不同,以及在使用图表数据时需要进行哪些必要操作;3)提出了一个图神经网络模型GNN;4)提供了一个GNN的playground;用来表示实体(node)之间的关系(edges),分为有向图和无向图,有向图表示的是某个实体之间的依赖关系,无向图只是表示实体之间的连接关系。图里面一共有顶点向量、边向量、全局向量这三个向量。原创 2022-09-26 16:13:54 · 468 阅读 · 0 评论 -
Transformer论文--Attention Is All You Need
目前主要的序列传导模型基于复杂的循环或卷积神经网络,包括encoder and a decoder。作者提出了仅依赖于注意力机制的的一种新的简单网络结构(Transformer),在机器翻译任务中与其他模型相比,该模型展现了更高的并行计算量同时大大减少了训练时间。并在WMT 2014 English-to-German比赛中BLEU值达到了28.4,比其他模型(包括集成模型)高出2个BLEU值。在WMT 2014 English-to-French比赛中达到了单一模型的最高记录(BLEU为41)。原创 2022-09-06 12:01:22 · 901 阅读 · 0 评论 -
ResNet论文--Deep Residual Learning for Image Recognition
本文为了解决较深网络难以训练的问题,提出了残差学习框架(residual learning framework),在该框架中每一层不直接学习上一层的输出,而是学习上一层已经学到的部分与label之间的残差。该框架在ImageNet数据集上使用了152层的残差网络,比VGG深8倍,但其具有较低的复杂度和更高的准确性。该模型在ILSVRC 2015分类任务中获得了第一名,在其他数据集上的表现也很好。...原创 2022-08-31 20:54:40 · 575 阅读 · 0 评论 -
AlexNet论文--ImageNet Classification with Deep ConvolutionalNeural Networks
构造了一个又大又深的卷积神经网络,该网络具有五个卷积层和3个全连接层,并使用Dropout来降低过拟合。在ImageNet上表现出很好的效果,在LSVRC-2010的测试数据集上的top-1和top-5误差分别为37.5%和17.0%。ILSVRC-2012竞赛中top-5的误差为15.3%,比第二名低了13%。我们在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集上训练了迄今为止最大的卷积神经网络之一,并在这些数据集上取得了很好的结果。...原创 2022-08-30 10:20:49 · 273 阅读 · 0 评论