rucieryi369-CSDN博客

原创 sklearn的评估方法

1. sklearn.metrics.accuracy_score(y_true,y_pred,*,normalize=True,sample_weight=None)其中，y_true表示真实标签；y_pred表示预测的标签；normalize表示是否对结果进行归一化处理；sample_weight表示样本的权重。二分类的计算方式：from sklearn.metrics import accuracy_scorey_pred = [0, 2, 1, 3]y_true = [0, 1,

2022-05-19 15:34:46 1174

原创 longformer长文本处理

链接：https://arxiv.org/pdf/2004.05150.pdfgithub:https://github.com/allenai/longformerAbstract由于自注意力机制，Transformer模型不能很好地处理长文本；为了处理这个问题，本文提出了Longformer，它的注意力机制是将局部注意力和任务驱动的全局注意力进行了结合。IntroductionTransformers已经在NLP任务上取得了很好地进展，它的成功主要得益于自注意力能够捕获上下文的信息。

2022-05-18 15:39:52 1120

原创 faiss-gpu的问题

在faiss中使用出现以下问题的：原先的faiss检索方式：dim=768gpu_id=0index = faiss.IndexFlatL2(dim)res = faiss.StandardGpuResources()self.index = faiss.index_cpu_to_gpu(res, gpu_id, index)出现上述问题是IndexFlatL2是暴力检索，数据量比较大时，GPU内存占用比较大，解决方法：dim=768m=8nlist=100d=8

2022-05-16 11:48:05 2406

原创 Accelerating BERT Inference for Sequence Labeling via Early-Exit

链接：https://arxiv.org/pdf/2105.13878.pdfgithub:https://github.com/LeeSureman/Sequence-Labeling-Early-ExitBert等一系列预训练模型虽然在下游任务上有很好的表现，但是他们的计算代价是比较大的。从而使得工程上使用局限比较大。为了解决这个问题，提出了模型压缩的一系列方法如：剪枝，知识蒸馏以及早退机制等。其中，早退机制是认为一些样本在比较浅的层就能得到正确的结果，那么就可以终止这些样本的训练，从而加速推理

2022-05-13 21:43:59 475

原创 A40上tensorflow的安装

1.安装dockersudo apt-get update sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ gnupg-agent \ software-properties-common curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key ad

2022-05-12 12:09:39 488

原创 pytorch多GPU并行的问题

以下是在多GPU并行torch程序的时候出现的问题以及解决方案：1.torch.distributed.elastic.multiprocessiong.erroes.ChildFailedError:此类问题的解决方案：1.查看安装的包是否与要求的一致。2.更改batch的大小。3.查看其中是否有某一个gpu被占用。2. torch.distributed.elastic.multiprocessing.api.SignalException: Process 40121 got

2022-05-11 11:19:59 25633 4

原创 ERNIE-DOC: A Retrospective Long-Document Modeling Transformer

链接:https://arxiv.org/abs/2012.15688github:https://github.com/PaddlePaddle/ERNIE/tree/repro/ernie-docAbstractTransformers由于内存和时间的二次增长，从而不适用于长文本。简单的长文本截断或者稀疏自注意力机制将会导致其他的问题。ERNIE-DOC是基于Recurrence Transformers的长文本的预训练模型。其中主要的设计技术是：retrospective feed mec

2022-05-09 09:00:00 571

原创语音分离Sepformer

链接：https://arxiv.org/pdf/2010.13154.pdfgithub:https://speechbrain.github.io/摘要RNN在seq2seq上有很好的表现，但是不能够并行计算，使得计算的代价比较大；而Transformers的出现解决了RNN的这个问题，而Transformers由于attention的缘故，会有比较高的复杂性。后续出现了Transformers的各种变体，后续专门来写。这篇文章提出了SepFormer,，一种利用Transf

2022-05-08 09:00:00 2441

原创 CogLTX: Applying BERT to Long Texts

链接：http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdfgithub:https://github.com/Sleepychord/CogLTXAbstract由于bert内存呈现二次增长和时间消耗，使得不能很好的处理长文本；一种自然的方式是对transformer进行操作，如对文本进行滑窗，attention的稀疏化处理（随机，固定窗口，二者结合）等。从人类理解长文本的角度出发，主要分为

2022-05-07 16:02:22 324