2021年09月_u013250861

原创 python中的拉链函数：zip()、zip(*)

一、zip()zip在英文中有拉链的意思，我们由此可以形象的理解它的作用：将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同。语法： zip([iterable, ...])示例一：a = [1, 2, 3]b = [4, 5, 6]c = [7, 8, 9, 10, 11]zipped01 = zip(a, b) # 打包为元组的列表print('zipped01 = {0}; li

2021-09-30 23:30:00 981

原创 Pytorch实现多GPU分布式训练

参考资料：Pytorch 分布式训练PyTorch分布式训练简明教程Pytorch分布式训练指南（详细）分布式入门，怎样用PyTorch实现多GPU分布式训练

2021-09-30 22:45:04 214

原创 Pytorch：optim.zero_grad()、pred=model(input)、loss=criterion(pred,tgt)、loss.backward()、optim.step()的作用

在用pytorch训练模型时，通常会在遍历epochs的每一轮batach的过程中依次用到以下三个函数optimizer.zero_grad()；loss.backward()；optimizer.step()model = MyModel()criterion = nn.CrossEntropyLoss()optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9, weight_decay=1e-4)

2021-09-30 22:06:21 3005 1

原创 Python函数中的 **、* 操作符作用

一、函数定义时形参前使用1、*表示的是将调用时的多个参数放入元组中；def func(*args): print(args)当用func(1,2,3)调用函数时,参数args就是元组(1,2,3)2、** 则表示将调用函数时的关键字参数放入一个字典中；def func(**args): print(args)当用func(a=1,b=2)调用函数时,参数args将会是字典{‘a’:1,‘b’:2}二、函数调用中使用1、*args表示将可迭代对象扩展为函数的参数列表args=(1,2

2021-09-29 22:30:44 6525

原创预训练模型-词汇表：bert-base-uncased【vocab.txt；共30522个subword】

预训练模型-词汇表：bert-base-uncased【vocab.txt；共30522个subword】

2021-09-29 17:35:29 4961 3

原创图神经网络(GNN)：综述【从图(Graph)到图卷积(Graph Convolution)】【各种图神经网络模型的目的就是学习到图中各个节点的Embedding表示】

本文试图沿着图神经网络的历史脉络，从最早基于不动点理论的**图神经网络**(Graph Neural Network， GNN)一步步讲到当前用得最火的**图卷积神经网络**(Graph Convolutional Neural Network， GCN)。本文的提纲与叙述要点主要参考了3篇图神经网络的Survey，分别是来自：- IEEE Fellow的 [Comprehensive Survey on Graph Neural Networks](https://arxiv.org/abs/190

2021-09-28 23:37:59 2182 1

原创自然语言处理(NLP)-第三方库(工具包)：OpenNMT【开源NMT工具；神经机器翻译工具】

参考资料：https://opennmt.net/GitHub:OpenNMT

2021-09-27 22:26:58 374

原创 Pytorch十九种损失函数【NLLLoss、CrossEntropyLoss、BCELoss...】

参考资料：Pytorch十九种损失函数的使用详解

2021-09-27 22:21:16 843

原创 Pytorch：torch.Tensor的4种乘法【*==torch.mul（元素对应相乘）、torch.mm（满足矩阵结构的乘法）、torch.matmul（最后2个维度进行torch.mm操作）】

一、点乘（*）==torch.mul【具备broadcast性质】a与b做*乘法，原则是如果a与b的size不同，则以某种方式将a或b进行复制，使得复制后的a和b的size相同，然后再将a和b做element-wise的乘法。点积是broadcast的。broadcast是torch的一个概念，简单理解就是在一定的规则下允许高维Tensor和低维Tensor之间的运算。1、* 标量Tensor与标量k做*乘法的结果是Tensor的每个元素乘以k（相当于把k复制成与lhs大小相同，元素全为k的Tens

2021-09-27 22:20:45 4464

原创人工智能-损失函数-优化算法：导数(标)、偏导数(标；函数在某一点处沿某一坐标轴正方向的变化率)、方向导数(标；函数在某一点处某一方向的变化率)、梯度(矢；函数在某一点处变化率最大的方向)、梯度下降法

一、导数（一元函数）导数，反映的是函数 y=f(x)y=f(x)y=f(x) 在某一点处沿xxx轴正方向的变化率。公式定义如下：再强调一遍，导数f’(x)f’(x)f’(x)是函数f(x)f(x)f(x)在xxx轴上某一点处沿着xxx轴正方向的变化率。直观地看，也就是在xxx轴上某一点处，如果f’(x)>0f’(x)>0f’(x)>0，说明f(x)f(x)f(x)的函数值在xxx点沿xxx轴正方向是趋于增加的；如果f’(x)<0f’(x) < 0f’(x)<0，.

2021-09-27 11:17:23 827

原创 PyTorch中的model.zero_grad() 与 optimizer.zero_grad()

在PyTorch中，对模型参数的梯度置0时通常使用两种方式：model.zero_grad()和optimizer.zero_grad()。二者在训练代码都很常见，那么二者的区别在哪里呢？一、model.zero_grad()model.zero_grad()的作用是将所有模型参数的梯度置为0。其源码如下：for p in self.parameters(): if p.grad is not None: p.grad.detach_() p.grad.zero

2021-09-26 23:36:25 7743 1

原创 Python：迭代器、生成器【使用了yield的函数称为生成器】【生成器是一个返回迭代器的函数】【用List遍历数据会一次性加载所有数据，占用内存太大；生成器可以分批次向内存加载数据】

一、迭代器顾名思义，迭代器就是用于迭代操作（for 循环）的对象，它像列表一样可以迭代获取其中的每一个元素。python3中任何实现了 _next_ 方法的对象都可以称为迭代器。迭代器与列表的区别在于，构建迭代器的时候，不像列表把所有元素一次性加载到内存，而是以一种延迟计算（lazy evaluation）方式返回元素，这正是它的优点。比如列表含有中一千万个整数，需要占超过400M的内存，而迭代器只需要几十个字节的空间。因为它并没有把所有元素装载到内存中，而是等到调用 next 方法时候才返回该元素

2021-09-26 22:52:05 570

原创 Python中迭代器、生成器的用法：【使用了yield的函数称为生成器】【生成器是一个返回迭代器的函数】【用List遍历数据会一次性加载所有数据，占用内存太大；生成器可以分批次向内存加载数据】

一、生成器为什么用这个生成器，是因为如果用List的话，会占用更大的空间，比如说取0,1,2,3,4,5,6............100000000你可能会这样：for i in range(1000): a=i这个时候range(100000000)就默认生成一个含有100000000个数的list了，所以很占内存。这个时候你可以用刚才的yield组合成生成器进行实现，也可以用xrange(1000)这个生成器实现 yield 组合：def foo(num): print(

2021-09-26 11:44:47 203

原创 Python利用JPype调用Java对象方法【实现在Python中调用JAVA】

参考资料：python利用jpype调用java对象方法

2021-09-19 19:02:02 2313

原创 NLP-分类模型-2018-文本分类：TextGCN【构建了基于文本和词的异构图，使得在GCN上能够对文本进行半监督分类】

《原始论文：Graph Convolutional Networks for Text Classification》一、概述文本分类是自然语言处理中一个常见的基础问题。我们常用的文本表示方法有CNN，RNN/LSTM等等。这些模型会优先考虑文本的顺序信息和局部信息，能够很好的捕获连续词序列中的语义和语法信息，但是它忽略了全局（这个数据集/语料库）的词共现，全局词共现中携带了不连续以及长距离的语义信息。这篇文章提出了一个新颖的基于图神经网络的方法来做文本分类，使用整个数据集/语料库来构建一个大的异构图

2021-09-18 20:19:39 1705

原创 NLP-分类模型-2015-文本分类：TextRCNN【一般CNN都是“卷积层+池化层”；将CNN中的卷积层换成了BiLSTM得到“BiLSTM+池化层”；来进行文本分类】

《原始论文：Recurrent convolutional neural networks for text classification》首先先解释一下为啥叫做 RCNN：一般的 CNN 网络，都是卷积层 + 池化层。这里是将卷积层换成了双向 RNN，所以结果是，两向 RNN + 池化层。就有那么点 RCNN 的味道。论文里面一开始讲了已经有模型有各种各样的缺点，然后基于已存的各种问题，提出了这个模型。参考资料：TextRCNN 文本分类阅读笔记...

2021-09-18 19:55:43 615

原创 NLP-分类模型-2016-文本分类：TextRNN【利用RNN循环神经网络解决文本分类问题】【相比较TextCNN】

TextRNN指的是利用RNN循环神经网络解决文本分类问题，文本分类是自然语言处理的一个基本任务，试图推断出给定文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛，如：垃圾邮件分类：2分类问题，判断邮件是否为垃圾邮件情感分析：2分类问题：判断文本情感是积极还是消极；多分类问题：判断文本情感属于{非常消极，消极，中立，积极，非常积极}中的哪一类。新闻主题分类：判断一段新闻属于哪个类别，如财经、体育、娱乐等。根据类别标签的数量，可以是2分类也可以是多分类。自动问答系统中的问句分类社区问答

2021-09-18 19:43:20 1461

原创 Warmup：预热学习率【在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps后再修改为预先设置的学习率来进行训练】

学习率是神经网络训练中最重要的超参数之一，针对学习率的优化方式很多,Warmup是其中的一种。(一)、什么是Warmup?Warmup是在ResNet论文中提到的一种学习率预热的方法，它在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习率来进行训练。(二)、为什么使用Warmup?由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)

2021-09-17 22:12:35 412

原创 NLP-预训练模型-2019-NLU+NLG：BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器，解码器输出原文本】【噪音方案：文本填充（文本片段用单个掩码替换）】

《原始论文：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》一、摘要BART是 Bidirectional and Auto-Regressive Transformers的简写。BART的训练主要由2个步骤组成：(1)使用任意噪声函数破坏文本；(2）模型学习重建原始文本。BART 使用基于 Transformer

2021-09-17 21:58:33 12837 1

原创 Pytorch中torch.Tensor.scatter_用法

首先看一下这个函数的接口，需要三个输入：1）维度dim 2）索引数组index 3）原数组src，为了方便理解，我们后文把src换成input表示。最终的输出是新的output数组。下面依次介绍：1）维度dim：整数，可以是0,1,2,3…2）索引数组index：索引数组是一个tensor，其中的数据类型是整数，表示位置3）原数组input：也是一个tensor，其中的数据类型任意先说一下这个函数是干嘛的，在我看来，这个scatter函数就是把input数组中的数据进行重新分配。index中表示了

2021-09-12 22:26:10 605

原创人工智能：损失函数（Loss Function）【平方损失（正态分布）、交叉熵损失（二项分布）、合页损失、对比损失】【衡量模型预测值和真实值的差异】【总体样本-＞值域分布律-＞似然函数-＞损失函数】

一、分类模型1、0-1损失函数(zero-one Loss Function)：无法优化L(y,f(x))={1,y≠f(x)0,y=f(x)L(y, f(x)) = \begin{cases} 1, & {y \neq f(x) } \\ 0, & {y = f(x)} \end{cases}L(y,f(x))={1,0,y=f(x)y=f(x)当预测错误时，损失函数为1，当预测正确时，损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误，就是1。该损失

2021-09-09 12:25:47 2085

原创 NLP-信息抽取-三元组-联合抽取-级联结构-2019：CasRel【抽取关系三元组的级联二元标注框架】【解决了SEO、EPO问题】【将关系作为主语到宾语的映射函数】

根据不同的重叠情况将句子划分为三种类型。Normal表示三元组之间无重叠；EPO(Entity Pair Overlap)表示三元组之间共享同一个实体对SEO(Single Entity Overlap) 表示三元组之间仅共享一个实体。注意在某些复杂的情况下，一个句子可能既是 EPO类型，同时也是SEO类型1 .很少研究关注三元组重叠问题2 .为三元组重叠提出一种新的关系抽取框架3 .实验结果表明该方法是有效的，在NYT和WebNLG数据集上取得较好的效果新的标注策略。

2021-09-07 23:07:56 3574

原创 NLP-信息抽取-关系抽取-2017：LSTM-LSTM-bias实体识别-关系联合抽取【基于一种新的标注策略进行实体和关系的联合抽取】

《原始论文：Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》

2021-09-07 23:05:29 1430 1

原创 NLP-信息抽取-关系抽取-2016：Attention-BiLSTM实体关系分类器【基于双向LSTM及注意力机制的关系分类】【数据集：SemEval-2010 Task 8】

《原始论文：Attention-based bidirectional long short-term memory networks for relation classification》

2021-09-07 23:03:15 1919 1

原创 NLP-信息抽取-关系抽取-2015：CRCNN、PCNN实体关系分类器【基于卷积神经网络排序进行关系识别、PCNN实现远程监督在关系提取中的应用】【数据集：SemEval-2010 Task 8】

《原始论文：Classifying Relations by Ranking with Convolutional Neural Networks》《原始论文：Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》

2021-09-07 23:01:18 610