自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 WinSCP 登录跳板机

通过这些步骤,WinSCP 会先连接到跳板机,然后通过跳板机连接到目标服务器。使用 WinSCP 登录跳板机(跳板机是一种中间服务器,用于安全连接到其他服务器)需要进行一些配置。准备跳板机和目标服务器的 SSH 凭据:你需要有跳板机和目标服务器的用户名、密码或者私钥文件。在“高级站点设置”窗口中,导航到“连接 > Tunnel”(连接 > 隧道)。点击左侧的“高级”按钮,打开“高级站点设置”窗口。点击“保存”,保存站点信息,以便以后可以快速连接。点击“高级”按钮,进入“高级站点设置”。

2024-07-01 10:15:06 123

原创 RuntimeError: cannot cache function ‘__shear_dense‘: no locator available for file

RuntimeError: cannot cache function '__shear_dense'

2023-01-31 11:14:54 565

翻译 Appendix for "BERT"(B&C)

B Detailed Experimental SetupB.1 Detailed Descriptions for the GLUE Benchmark Experiments.GLUE基准测试包括以下数据集,其具体描述可参考Wang等(2018a)的最初概述。MNLIQQPQNLISST-2未完待续...

2019-10-22 16:41:26 251

翻译 Gaussian Error Linear Units (GELUs)

Bert使用了gelu激活论文链接:https://arxiv.org/abs/1606.08415未完待续

2019-10-21 16:29:23 2039

翻译 Appendix for "BERT"(A)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding我们将附录分为三个部分:•附录中提供了BERT的其他实现详细信息•有关实验的其他详细信息,请参见附录B; 和•附录C中提供了其他消融研究。我们提供了BERT的其他消融研究,包括:–培训步骤数的影响; 和–消融不同掩码步骤的流程...

2019-10-18 17:25:59 206

原创 Python实现平方根倒数速算法

0x5f3759dfclass Solution(): def mySqrt(self,num): t = num t = 0x5f3759df - (t >> 1) while not (t * t <= num and (t+1) * (t + 1) > num): t = (num / ...

2019-10-18 14:49:10 1631 4

翻译 BERT(五)

5 Ablation Studies在本节中,我们将对BERT的多个方面进行消融实验,以更好地了解它们的相对重要性。其他消融研究可在附录C中找到。5.1 Effect of Pre-training Tasks通过使用与BERT-BASE完全相同的预训练数据,微调方案和超参数来评估两个预训练目标,我们证明了BERT的深度双向的重要性:**No NSP:**使用“带掩码的LM”(MLM)训练...

2019-10-18 11:12:50 540

翻译 Bert(四)

4 Experiments在本节中,我们介绍了11个NLP任务的BERT微调结果。4.1 GLUE通用语言理解评估(GLUE)基准(Wang等人,2018a)是多种自然语言理解任务的集合。 GLUE数据集的详细说明包含在附录B.1中。为了对GLUE进行微调,我们按照第3节中的描述表示输入序列(针对单个句子或句子对),并使用与第一个输入标记([CLS])相对应的最终隐藏矢量C∈R H作为 聚...

2019-10-17 16:38:48 933

翻译 Bert(三)

3 BERT在本节中,我们将介绍BERT及其详细实现。我们的框架有两个步骤:预训练和微调。 在预训练期间,通过不同的预训练任务对未标记的数据进行模型训练。 为了进行微调,首先使用预训练的参数初始化BERT模型,然后使用来自下游任务的标记数据对所有参数进行微调。每个下游任务都有单独的微调模型,即使它们已使用相同的预训练参数初始化。 图1中的问答系统示例将作为本节的运行示例。BERT的一个显着...

2019-10-15 11:35:49 629

翻译 Bert(二)

2 Related Work预训练通用语言表示形式已有很长的历史,我们将简要回顾本节中使用最广泛的方法。2.1 Unsupervised Feature-based Approaches数十年来,学习广泛适用的单词表示法一直是研究的活跃领域,包括非神经网络(Brown等,1992; Ando和Zhang,2005; Blitzer等,2006)和神经网络(Mikolov等,2013 ; Pe...

2019-10-12 15:16:02 121

翻译 Bert(一)

BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT模型是来自Transformers的双向编码器表示。Bert是从未标记的文本中在所有层共同训练左、右上下文,旨在预训练双向深层表示。因此,仅增加一个额外的输出层就而无需进行大量针对特定任务的体系结构修改可就以对经过预训练的BER...

2019-10-09 13:50:52 168

原创 Bert-demo运行

https://github.com/google-research/bert#fine-tuning-with-bert参考readme开始运行demoSentence (and sentence-pair) classification tasks在运行例子前需要下载GLue data。可以采用下面的方法下载。git clone https://github.com/wasiahma...

2019-09-25 14:06:18 392

原创 Nature REVIEW :Deep learning

深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表征。 这些方法极大地改善了语音识别,视觉对象识别,对象检测以及许多其他领域的最新技术,例如药物发现和基因组学。 深度学习通过使用反向传播算法来指示机器应如何更改其内部参数,这些参数从之前的一层的表征计算每层的表征,从而发现大数据集中的复杂结构。 深层卷积网络在处理图像,视频,语音和音频方面带来了突破,而循环网络则对诸如文本和语音之类...

2019-09-25 10:30:43 310

原创 python version 3.6 does not support a 'ur' prefix

http://bugs.python.org/issue15096Drop support for the “ur” string prefixWhen PEP 414 restored support for explicit Unicode literals in Python 3, the “ur” string prefix was deemed to be a synonym for...

2019-09-24 15:17:07 2511

翻译 The Annotated Transformer(二)

Full Model在这里,我们定义一个函数,它采用超参数并生成一个完整的模型。def make_model(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1): "提示:从超参数构建模型。" c = copy.deepcopy attn = Multi...

2019-09-04 17:49:36 875

原创 RuntimeError: exp_vml_cpu not implemented for 'Long'

运行http://nlp.seas.harvard.edu/2018/04/03/attention.htm报错position = torch.arange(0, max_len).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))修改为:...

2019-09-03 15:10:20 6800 5

翻译 The Annotated Transformer(一)

原文地址:http://nlp.seas.harvard.edu/2018/04/03/attention.html摘要:基于复杂循环卷积神经网络的主要序列转换模型包含了编码器(Encoder)和解码器。表现最好的模型在解码器和编码器之间通过注意力机制进行连接。我们提出了一个新的简单网络结构,Transformer,其仅基于注意力机制,完全和循环卷积分开。两种机器翻译的实验表明这些模型不仅翻译质...

2019-09-02 12:05:38 853

原创 NameError: name 'unicode' is not defined

python2中的unicode()函数在python3中会报错:将unicode()转换为 str()为://python2:unicode(row[col_name],'utf-8')//python3:str(row[col_name])

2019-08-30 15:05:44 8247

原创 Python super() 函数

描述super() 函数是用于调用父类(超类)的一个方法。super 是用来解决多重继承问题的,直接用类名调用父类方法在使用单继承的时候没问题,但是如果使用多继承,会涉及到查找顺序(MRO)、重复调用等种种问题。MRO 就是类的方法解析顺序表, 其实也就是继承父类方法时的顺序表。语法以下是 super() 方法的语法:super(type[, object-or-type])参数...

2019-08-29 15:09:57 94

原创 Python中self

Python中self用法详解:https://blog.csdn.net/CLHugh/article/details/75000104

2019-08-22 13:29:23 226

原创 keras.layers.Dense()方法

keras.layers.Dense()是定义网络层的基本方法,执行的操作是:output = activation(dot(input,kernel)+ bias。其中activation是激活函数,kernel是权重矩阵,bias是偏向量。如果层输入大于2,在进行初始点积之前会将其展平。代码如下:class Dense(Layer): """Just your regu...

2019-08-02 11:33:27 18866

原创 可视化配置pydot及graphviz

学习DeepLearning的时候使用keras并且进行可视化看看模型细节。提示:Failed to import pydot. You must install pydot and graphviz for `pydotprint` to work.安装了各种软件包还是报错,最后发现是环境变量问题。1.pip3 install pydot2.pip3 install pydot_n...

2019-08-01 16:35:28 732

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除