DeepLearning
LittleOne008
这个作者很懒,什么都没留下…
展开
-
RuntimeError: cannot cache function ‘__shear_dense‘: no locator available for file
RuntimeError: cannot cache function '__shear_dense'原创 2023-01-31 11:14:54 · 518 阅读 · 0 评论 -
Appendix for "BERT"(B&C)
B Detailed Experimental SetupB.1 Detailed Descriptions for the GLUE Benchmark Experiments.GLUE基准测试包括以下数据集,其具体描述可参考Wang等(2018a)的最初概述。MNLIQQPQNLISST-2未完待续...翻译 2019-10-22 16:41:26 · 246 阅读 · 0 评论 -
Gaussian Error Linear Units (GELUs)
Bert使用了gelu激活论文链接:https://arxiv.org/abs/1606.08415未完待续翻译 2019-10-21 16:29:23 · 2000 阅读 · 0 评论 -
Appendix for "BERT"(A)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding我们将附录分为三个部分:•附录中提供了BERT的其他实现详细信息•有关实验的其他详细信息,请参见附录B; 和•附录C中提供了其他消融研究。我们提供了BERT的其他消融研究,包括:–培训步骤数的影响; 和–消融不同掩码步骤的流程...翻译 2019-10-18 17:25:59 · 201 阅读 · 0 评论 -
BERT(五)
5 Ablation Studies在本节中,我们将对BERT的多个方面进行消融实验,以更好地了解它们的相对重要性。其他消融研究可在附录C中找到。5.1 Effect of Pre-training Tasks通过使用与BERT-BASE完全相同的预训练数据,微调方案和超参数来评估两个预训练目标,我们证明了BERT的深度双向的重要性:**No NSP:**使用“带掩码的LM”(MLM)训练...翻译 2019-10-18 11:12:50 · 522 阅读 · 0 评论 -
Bert(四)
4 Experiments在本节中,我们介绍了11个NLP任务的BERT微调结果。4.1 GLUE通用语言理解评估(GLUE)基准(Wang等人,2018a)是多种自然语言理解任务的集合。 GLUE数据集的详细说明包含在附录B.1中。为了对GLUE进行微调,我们按照第3节中的描述表示输入序列(针对单个句子或句子对),并使用与第一个输入标记([CLS])相对应的最终隐藏矢量C∈R H作为 聚...翻译 2019-10-17 16:38:48 · 907 阅读 · 0 评论 -
Bert(三)
3 BERT在本节中,我们将介绍BERT及其详细实现。我们的框架有两个步骤:预训练和微调。 在预训练期间,通过不同的预训练任务对未标记的数据进行模型训练。 为了进行微调,首先使用预训练的参数初始化BERT模型,然后使用来自下游任务的标记数据对所有参数进行微调。每个下游任务都有单独的微调模型,即使它们已使用相同的预训练参数初始化。 图1中的问答系统示例将作为本节的运行示例。BERT的一个显着...翻译 2019-10-15 11:35:49 · 624 阅读 · 0 评论 -
Bert(二)
2 Related Work预训练通用语言表示形式已有很长的历史,我们将简要回顾本节中使用最广泛的方法。2.1 Unsupervised Feature-based Approaches数十年来,学习广泛适用的单词表示法一直是研究的活跃领域,包括非神经网络(Brown等,1992; Ando和Zhang,2005; Blitzer等,2006)和神经网络(Mikolov等,2013 ; Pe...翻译 2019-10-12 15:16:02 · 119 阅读 · 0 评论 -
Bert(一)
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT模型是来自Transformers的双向编码器表示。Bert是从未标记的文本中在所有层共同训练左、右上下文,旨在预训练双向深层表示。因此,仅增加一个额外的输出层就而无需进行大量针对特定任务的体系结构修改可就以对经过预训练的BER...翻译 2019-10-09 13:50:52 · 164 阅读 · 0 评论 -
Bert-demo运行
https://github.com/google-research/bert#fine-tuning-with-bert参考readme开始运行demoSentence (and sentence-pair) classification tasks在运行例子前需要下载GLue data。可以采用下面的方法下载。git clone https://github.com/wasiahma...原创 2019-09-25 14:06:18 · 387 阅读 · 0 评论 -
keras.layers.Dense()方法
keras.layers.Dense()是定义网络层的基本方法,执行的操作是:output = activation(dot(input,kernel)+ bias。其中activation是激活函数,kernel是权重矩阵,bias是偏向量。如果层输入大于2,在进行初始点积之前会将其展平。代码如下:class Dense(Layer): """Just your regu...原创 2019-08-02 11:33:27 · 18806 阅读 · 0 评论 -
The Annotated Transformer(一)
原文地址:http://nlp.seas.harvard.edu/2018/04/03/attention.html摘要:基于复杂循环卷积神经网络的主要序列转换模型包含了编码器(Encoder)和解码器。表现最好的模型在解码器和编码器之间通过注意力机制进行连接。我们提出了一个新的简单网络结构,Transformer,其仅基于注意力机制,完全和循环卷积分开。两种机器翻译的实验表明这些模型不仅翻译质...翻译 2019-09-02 12:05:38 · 836 阅读 · 0 评论 -
The Annotated Transformer(二)
Full Model在这里,我们定义一个函数,它采用超参数并生成一个完整的模型。def make_model(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1): "提示:从超参数构建模型。" c = copy.deepcopy attn = Multi...翻译 2019-09-04 17:49:36 · 853 阅读 · 0 评论 -
Nature REVIEW :Deep learning
深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表征。 这些方法极大地改善了语音识别,视觉对象识别,对象检测以及许多其他领域的最新技术,例如药物发现和基因组学。 深度学习通过使用反向传播算法来指示机器应如何更改其内部参数,这些参数从之前的一层的表征计算每层的表征,从而发现大数据集中的复杂结构。 深层卷积网络在处理图像,视频,语音和音频方面带来了突破,而循环网络则对诸如文本和语音之类...原创 2019-09-25 10:30:43 · 307 阅读 · 0 评论 -
可视化配置pydot及graphviz
学习DeepLearning的时候使用keras并且进行可视化看看模型细节。提示:Failed to import pydot. You must install pydot and graphviz for `pydotprint` to work.安装了各种软件包还是报错,最后发现是环境变量问题。1.pip3 install pydot2.pip3 install pydot_n...原创 2019-08-01 16:35:28 · 728 阅读 · 0 评论