ywm_up-CSDN博客

转载 pytorch关于多块gpu使用总结，报错AssertionError: Invalid device id

————————————————版权声明：本文为CSDN博主「kongkongqixi」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/kongkongqixi/article/details/100521590————————————————pytorch默认使用gpu编号为device:0的设备，可以使用torch.nn.DataParallel(model, device_ids=[0, 1])对模

2022-02-12 10:40:20 2784 1

转载目标检测综述

转载连接：目标检测究竟发展到了什么程度? | CVHub带你聊一聊目标检测发展的这22年详细论文链接和代码可以点开看[1] Rapid object detection using aboosted cascade of simple features[2] Histograms of oriented gradients for human detection[3] A discriminatively trained, multiscale, deformable part model[

2022-02-11 16:11:13 181

转载级联金字塔结构卷积神经网络

参考资料:图文详解级联金字塔结构卷积神经网络前言随着深度学习技术的发展，深度卷积神经网络在图像分类、识别以及关键点定位上已得到广泛应用。目前在人体姿态、人脸识别等多方面的关键点定位算法已经取得大量成果，但是应用于多变性的图像背景以及姿态等依然面临很大的挑战，如服饰在类别、比例核外观上具有多变性，其关键点定位精度并不高。下文将在传统的残差核沙漏网络的基础上，介绍一种新的级联金字塔结构卷积神经网络，实现对关键点的定位进行精细调整。并通过实例剖析进一步帮助大家理解。传统卷积神经网络1. 沙漏网络沙漏网络

2022-02-09 16:18:19 1483

转载全连接回归 vs 高斯热图

参考连接：关键点之热力图Heatmap与坐标FC回归在做关键位置检测时，通常可以分为两大类方法：全连接回归高斯热图方法1：全连接（FC）直接回归坐标拓展阅读：《How much position information do convolutional neural networks encode?》关于CNN如何学习到绝对位置坐标？人体姿态估计一般通过检测方式学习到绝对位置（锚），关键点学习相对位置FC 坐标回归方案优点：训练和前向速度可以做到很快，端到端全微分训练缺点缺乏空

2022-02-09 16:16:40 1550

转载空洞卷积（Atrous Convolution）

优点：在不做 polling 损失信息和相同的计算条件下的情况下，增大了感受野，让每个卷积输出都包含较大范围的信息。空洞卷积经常应用在实时图像分割中。当网络层需要较大的感受野，但计算资源有限而无法提高卷积核数量或大小时，可以考虑空洞卷积。空洞卷积（atrous convolutions）又称扩张卷积（dilated convolutions），是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一个卷积网络。利用添加空洞扩大感受野，让原本3×3的卷积核，在相同参数量核计算量下拥有5×5（d.

2022-02-09 16:15:25 4868

转载 VGG 模型原理及 pytorch 代码

文章目录VGG，使用重复元素的网络为什么要用多个小的卷积核替代大的卷积核（小卷积核优势）总结VGG，使用重复元素的网络VGG的组成规律是：连续使用多个相同的VGG块，即填充为1、窗口形状为 3 x 3 的卷积层后接一个步幅为2、窗口形状为 2 x 2 的最大池化层。卷积层保持输入的高和宽不变，而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块，它可以指定卷积层的数量和输入输出通道数。定义VGG块：import timeimport torchfrom torch imp

2022-02-09 16:13:22 751

转载 AlexNet 模型原理及 pytorch 代码

1. 模型原理AlexNet包含8层变换，其中有5层卷积（中间另外有3层池化层）和2层全连接隐藏层，以及1个全连接输出层。2. 代码import timeimport torchfrom torch import nn, optimimport torchvisionimport syssys.path.append("..") import d2lzh_pytorch as d2ldevice = torch.device('cuda' if torch.cuda.is_avail

2022-02-09 16:10:54 379

转载 LeNet 模型原理及pytorch代码

1. 概述LeNet-5[1] 诞生于1994年，是最早的深层卷积神经网络之一，推动了深度学习的发展。从1988年开始，在多次成功的迭代后，这项由Yann LeCun完成的开拓性成果被命名为LeNet-5。最初被用于手写数字识别，当年美国大多数银行就是用它来识别支票上面的手写数字的，它是早期卷积神经网络中最有代表性的实验系统之一。2. 算法基本思想2.1 LeNet-5的网络结构LeNet-5中主要由2个卷积层、2个下抽样层（池化层）、3个全连接层组成（两个隐藏层、一个输出层），其中：INPU

2022-02-09 16:07:02 792

原创 ACL20 - Don‘t stop pretraining: adapt language models to domains and tasks

Gururangan S, Marasović A, Swayamdipta S, et al. Don’t stop pretraining: adapt language models to domains and tasks[J]. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. (ACL 2020).Github：https://github.com/allena

2021-12-28 20:01:17 530

原创 AAAI19 - Hybrid attention-based prototypical networks for noisy few-shot relation classification

Gao T, Han X, Liu Z, et al. Hybrid attention-based prototypical networks for noisy few-shot relation classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 6407-6414.MLA文章目录摘要介绍方法Instance EncoderPrototypical Networ

2021-12-28 19:58:42 705

原创 ACL20 - Zero-shot Text Classification via Reinforced Self-training

文章目录摘要介绍自训练方法强化学习模块实验数据方法结果总结摘要传统自训练（self-training）方法采用固定的探索式算法，在不同数据集上表现不一。本文采用强化学习框架学习数据选择策略，提供更可靠的数据。介绍处理零样本文本分类通常有两个主要的方法，目前工作主要在第1点，忽略了第2点：整合更多的外部知识，建立更多复杂的类型连接整合无标签数据提升泛化能力直接用传统的自训练方式可能会遇到一些问题：传统自训练方式采用手工制定的探索式算法选择数据，调整选择策略开销很大传统的自训练方法在跨

2021-12-28 19:46:12 1022 1

转载 AAAI19 - Hybrid attention-based prototypical networks for noisy few-shot relation classification

Gao T, Han X, Liu Z, et al. Hybrid attention-based prototypical networks for noisy few-shot relation classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 6407-6414.MLA文章目录摘要介绍方法Instance EncoderPrototypical Networ

2021-12-24 16:52:18 319

原创 ICLR18 - Meta-learning for semi-supervised few-shot classification

Ren MY, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification. ICLR 2018.本文提出了三种原型网络的变体，表现超过了原来的原型网络。变体1： Prototypical networks with soft k-means我们不仅有 support set、query set，而且还有一个 unlabeled set。先用 support set 初始化每个类的

2021-12-24 11:30:36 402

转载 ACL21 - Making Pre-trained Language Models Better Few-shot Learners

Gao T, Fisch A, Chen D. Making pre-trained language models better few-shot learners[J]. ACL 2021.Github：https://github.com/princeton-nlp/LM-BFF摘要GPT3效果很好，但是太大了，不实用。受启发于GPT3 使用 prompt 做 Few-shot 任务表现不错，本文提出 LM-BFF 模型，能更好的微调 few-shot 语言模型。模型包括：能够自动生成

2021-12-23 21:08:51 400

原创 EMNLP21 - Data Augmentation for Cross-Domain Named Entity Recognition

Chen S, Aguilar G, Neves L, et al. Data Augmentation for Cross-Domain Named Entity Recognition[J]. EMNLP 2021.Github：https://github.com/RiTUAL-UH/style_NER文章目录摘要介绍方法数据预处理增加输入扰动去噪重构 Denoising Reconstruction转换重构 Detransforming Reconstruction领域分类 Domain Cla

2021-12-23 15:35:17 930 2

原创 ACL21 - Learning from Miscellaneous Other-Class Words for Few-shot Named Entity Recognition

Tong M, Wang S, Xu B, et al. Learning from Miscellaneous Other-Class Words for Few-shot Named Entity Recognition[J]. ACL2021.介绍目前工作忽略了 O 标签实体潜在的语义信息。要是能从 O 标签中，再区分出一种之前未定义的类，就可以获取更多的实体之间的关系。从 O 标签实体中识别出未定义类，有两大难点：语义混乱：各种各样的类型都有可能归类为 O，这取决于标注的人怎么划分类型的，

2021-12-22 15:46:19 720

翻译 EMNLP20 - Simple and effective few-shot named entity recognition with structured nearest neighbor le

文章目录AbstractIntroductionProblem Statement and SetupModelNearest neighbor classification for few-shot NERStructured nearest neighbor learningExperimentsTag set extensionDomain TransferCompetitive systemsResultsAbstract基于最近邻和结构化推理，构建了一个简单的 few-shot NER 系统

2021-12-21 21:25:54 1046 2

转载匹配网络 Matching Network

匹配网络 Matching Network匹配网络其实就是引入注意力机制，通过对 embedding 后的特征计算注意力，利用注意力得分进行分析：首先也是对支持集和查询集进行 embedding，然后用查询集样本对每个支持集样本计算注意力：a(x^,xi)=ec(f(x^),g(xi))/∑j=1kec(f(x^),g(xj))a\left(\hat{x}, x_{i}\right)=e^{c\left(f(\hat{x}), g\left(x_{i}\right)\right)} / \sum_

2021-12-17 17:22:19 4371

原创关系网络 Relation Network

文章目录比较孪生网络、原型网络和关系网络关系网络 Relation Network实现过程网络结构损失函数训练策略算法推广 —— 推广到 zero-shot创新点算法评价比较孪生网络、原型网络和关系网络孪生网络需要计算任意两两样本的匹配程度，而原型网络则进一步改进，提出对样本进行适当的 embedding，然后计算样本每一类的样本中心，称为原型 prototype，通过模型学习出 prototype 的位置，对测试样本计算到每个原型的距离，从而进行分类。不论是孪生网络还是原型网络，在分析两个样本的时候

2021-12-17 17:21:25 9217

原创原型网络 Prototypical Network

原型网络 - Prototypical Network原型网络出自下面这篇论文。Snell J, Swersky K, Zemel R S. Prototypical networks for few-shot learning[J]. NIPS 2017.原理原理和聚类有点相似孪生网络的缺点就是要对比目标和过去每个样本之间的相似度，从而分析目标的类别，而原型网络就提出，把样本投影到一个空间，计算每个样本类别的中心，在分类的时候，通过对比目标到每个中心的距离，从而分析出目标的类别。sup

2021-12-17 17:19:29 5091

原创孪生网络 Siamese Network

文章目录孪生网络的发展孪生网络定义功能与用途损失函数孪生网络的发展孪生网络又称为连体网络，网络中的连体是通过共享权值来实现。孪生网络最早是出现在1993年的论文《Signature Verification using a ‘Siamese’ Time Delay Neural Network》用于美国支票上的签名验证，即验证支票上的签名与银行预留签名是否一致。孪生网络是一种监督学习，用于度量学习。随后由于硬件的限制网络技术的发展，几乎停滞不前。2010年Hinton在ICML上发表了文章《Re

2021-12-17 17:18:40 20100

翻译 EMNLP21 - Few-Shot Named Entity Recognition: An Empirical Baseline Study

Huang J, Li C, Subudhi K, et al. Few-Shot Named Entity Recognition: An Empirical Baseline Study[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021: 10408-10423. EMNLP 2021.文章目录AbstractIntroductionMethodPrototy

2021-12-13 20:33:58 626

翻译 ACL21 - FEW-NERD：A Few-shot Named Entity Recognition Dataset

Ding N, Xu G, Chen Y, et al. Few-NERD: A Few-Shot Named Entity Recognition Dataset[J]. ACL-IJCNLP 2021.目录：文章目录AbstractIntroductionN-way K-shot Sampling strategiesCollection of FEW-NERDData AnalysisBenchmark SettingsStandard Supervised NERFew-shot NERExpe

2021-12-13 15:16:24 1040 2

翻译 ACL20 - Don‘t stop pretraining: adapt language models to domains and tasks

[1]Gururangan S, Marasović A, Swayamdipta S, et al. Don’t stop pretraining: adapt language models to domains and tasks[J]. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. (ACL 2020).文章目录AbstractIntroductionDomai

2021-12-12 09:51:33 192

翻译 ACL21 - Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data

Jiang H, Zhang D, Cao T, et al. Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data[J]. The 59th Annual Meeting of the Association for Computational Linguistics (ACL 2021).文章目录AbstractIntroductionMethod阶段1：对领域内大量的无标签数据进行预训练阶

2021-12-10 20:41:48 406

翻译 SAC19 - Few-shot classification in Named Entity Recognition Task

[1] Fritzler A, Logacheva V, Kretov M. Few-shot classification in named entity recognition task[C]//Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing. 2019: 993-1000.文章目录Abstract1. Introduction2. Related Work3. Prototypical network3.1 原型网络

2021-12-08 16:40:37 351

转载卷积神经网络：LeNet、AlexNet、VGG

文章目录LeNet，卷积神经网络AlexNet，深度卷积神经网络VGG，使用重复元素的网络为什么要用多个小的卷积核替代大的卷积核总结参考链接:5.5 卷积神经网络（LeNet）5.6 深度卷积神经网络（AlexNet）5.7 使用重复元素的网络（VGG）LeNet，卷积神经网络[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kB5uqfvo-1638695645036)(en-resource://database/3127:1)]LeNet包含25层变换，其中又

2021-12-05 17:16:11 229

转载 GPT1、GPT2、GPT3原理

文章目录GPT-1：无监督学习GPT-1原理介绍预训练模型（无监督）fine-tuning（有监督）小结GPT-2：多任务学习GPT-2的改进模型参数为什么GPT-2能够适应多任务？GPT-3：海量参数AbstractIntroductionGPT-1：无监督学习GPT-1原理介绍GPT模型主要包含两个阶段，第一个阶段，先利用大量未标注的语料预训练一个语言模型，接着，在第二个阶段对预训练好的语言模型进行微改，将其迁移到各种有监督的NLP任务，并对参数进行fine-tuning。预训练模型（无监督）

2021-12-05 17:13:51 12109

转载 ELMo：Deep contextualized word representations

文章目录1. 从Word Embedding到ELMo2. ELMo2.1 ELMo原理2.2 双向语言模型（Bidirectionbbal language models, BiLM）ELMo向量的计算ELMo向量与具体NLP任务结合总结常见问题ELMo的模型结构是怎样的？ELMo解决了一个什么样的问题？ELMo是怎么进行预训练的？如何使用它？为什么ELMo用两个单向的LSTM代替一个双向的LSTM？ELMo 通过两个单向的LSTM对原始词向量进行训练，训练是用上下文来预测当前词，两个LSTM不共享参

2021-12-05 17:05:57 822

转载 GloVe: Global Vectors for Word Representation

文章目录模型的提出共现概率矩阵1. 什么是共现？2. 什么是共现矩阵？3. 共现概率4. 共现概率比GloVe训练过程1. 构建共现矩阵2. 构建词向量（WOrd Vector）和共现矩阵（Co-ocurrence Matrix）之间的近似关系3. 构造 loss function4. 训练共现矩阵包含了当前词的全局上下文信息。以共现矩阵为训练目标，构建词向量进行训练，使得训练出的词向量蕴含了共现矩阵所蕴含的信息。模型的提出尽管word2vector在学习词与词间的关系上有了大进步，但是它有很明显

2021-12-05 17:03:27 1377

转载【综述】面向少量标注数据的命名实体识别研究

文章目录数据增强1. 样本选择（主动学习）2. 分类器集成（Boosting）模型迁移1. 共享词嵌入（预训练）2. 共享参数特征变换1. 特征选择2. 特征映射知识链接1. 基于知识库2. 基于本体系统四种方法比较常用数据集模型测评未来研究方向1. 样本选择策略的改进2. 考虑零样本学习3. 考虑予以漂移与噪声这篇博客的总结参考下面这篇文章,引用的序号对应论文中的引用,没有重新排序[1] 石教祥, 朱礼军, 望俊成,等. 面向少量标注数据的命名实体识别研究[J]. 情报工程, 2020, 6(4):

2021-12-05 16:59:38 594

原创概率和似然的区别

概率：给定参数，结果是否合理；似然：给定结果，参数是否合理。“概率”描述了给定模型参数后，描述结果的合理性，而不涉及任何观察到的数据。举例：抛一枚均匀的硬币，拋20次，问15次拋得正面的可能性有多大？这里的可能性就是”概率”，均匀的硬币就是给定参数θ=0.5\theta=0.5θ=0.5，“拋20次15次正面”是观测值OOO。求概率P(H=15∣θ=0.5)=？P (H=15 | \theta=0.5) = ？P(H=15∣θ=0.5)=？的概率。“似然”描述了给定了特定观测值后，描述模.

2021-12-05 16:56:23 288

MybatisStudy.rar

空空如也