![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
文章平均质量分 81
自然语言
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
GLIDE 使用了文本作为条件,来实现文本引导的扩散模型,在文本引导上面,文中主要使用了两种策略,Classifier-Free Diffusion Guidence 以及 CLIP 来作为条件监督,同时使用了更大的模型,在数据量上,和DALL-E 相似。实际上,扩散模型做的事情本质上是一样的,不同的是,扩散模型完全使用了全新的思路来实现这个目标。(实际上等价于学习了一个隐含的分类器),缺点是,成本比较高,相当于每次要生成两个输出,尽管如此,后面的大部份知名文本生成图像模型,都是基于这个方法进行的。原创 2022-09-20 14:45:28 · 6730 阅读 · 2 评论 -
AI艺术的背后:详解文本生成图像模型【基于GAN】
系列文章链接:AI 艺术生成已经开始走进大众的视野中。在过去一年里,出现了大量的文本生成图像模型,尤其是随着 Stable Diffusion 以及 Midjourney 的出现,带起了一股 AI 艺术创作热潮,甚至很多艺术家也开始尝试用 AI 来辅助艺术创作。在本文中,将会系统梳理近几年出现的文本生成图像算法,帮助大家深入了解其背后的原理。生成对抗网络(GAN,Generative Adversarial Networks)由两个主要的模块构成:生成器和判别器。生成器负责生成一张图片,而判别器则负责判断这原创 2022-09-20 11:57:35 · 3934 阅读 · 0 评论 -
AI艺术的背后:详解文本生成图像模型【基于 VQ-VAE】
详解文本生成图像模型原创 2022-09-19 20:09:39 · 3287 阅读 · 0 评论 -
Transformer模型对应的Tokenizer类型
各种Transformer模型对应的Tokenizer类型,原创 2022-06-29 13:27:38 · 1053 阅读 · 0 评论 -
NLP中的Perplexity是什么?
Perplexity,翻译为中文的意思为:困惑、混乱。在NLP中,表示语言模型的困惑度,是交叉熵的指数形式,可以作为语言模型的评价指标。Perplexity越低,说明模型拟合效果越好。Perplexity 计算公式如下:Perplexity(S)=p(w1,w2,w3,...,wm)−1/m=∏i=2m1p(wi∣w1,w2,w3,...,wi−1)mPerplexity(S) = p(w_1, w_2, w_3,...,w_m)^{-1/m}\\ = \sqrt[m]{\prod_{i=2}^m \fr原创 2022-06-21 15:38:16 · 4053 阅读 · 2 评论 -
Transformer-XL 论文精读
文章链接:Transformer-XL: Attentive Language Models Beyond a Fixed-Length ContextTransformers在学习长序列依赖上有潜在优势,但也受限于语言模型序列长度固定的问题。我们提出了一个新颖的网络结构:Transformer-XL,在不打破时序关系的前提下可以突破固定长度的限制。它由片段级的循环机制和全新的位置编码框架构成。该架构不进可以学习文本的长依赖关系,还可以解决上下文碎片问题。最终,Transformer-XL可以学习相较RNN原创 2022-06-20 23:11:17 · 403 阅读 · 0 评论 -
【翻译】A Survey of Transformers -- Transformers综述
这篇文章翻译自复旦大学邱锡鹏团队的 Transformers 综述。Transformers在许多领域都取得了取得的成功,如:NLP、CV和语音处理,自然吸引了学术界和工业界的很大兴趣。到目前为止,已经有许多Transformers的变体(也就是 X-formers)被提出来,然而仍然缺乏对这些变体的系统的、全面的文献解读。这篇综述中,我们提出对X-formers 全面的评述。我们首先介绍了Vanilla Transformer,然后对X-formers 进行划分,接下来从结构、预训练和应用三个方面介绍了不原创 2022-06-16 11:43:44 · 512 阅读 · 0 评论 -
【GPT3】Language Models are Few-Shot Learners
在大规模文本语料上的预训练模型,然后在特定任务上微调后的NLP任务已经取得了长足的进步。然而针对任务无关的的模型结构,这种方法仍然需要在特定任务的成千上万的数据集上微调。对比来看,人类仅从少部分样本或简单的命令上,就可以学习新的语言任务。这里,我们极大程度地扩展语言模型,进而提高在通用任务、小样本上的性能,甚至可以比拟之前经过微调后的sota模型性能。具体地,我们训练了GPT-3的自回归语言模型,由1750亿个参数组成,10倍于之前的非稀疏语言模型。针对所有任务,GPT-3不用梯度更新或微调。...原创 2022-04-25 21:27:19 · 1665 阅读 · 0 评论 -
【GPT2】Language Models are Unsupervised Multitask Learners
Paper Link:Language Models are Unsupervised Multitask LearnersGPT系列文章解读:【GPT】Improving Language Understanding by Generative Pre-Training【GPT2】【GPT3】Abstractintroduction原创 2022-04-25 21:20:50 · 1404 阅读 · 0 评论 -
【GPT】Improving Language Understanding by Generative Pre-Training
Paper Link:Improving Language Understanding by Generative Pre-TrainingGPT系列文章解读:【GPT2】【GPT3】Abstract自然语言理解包含一系列广泛的任务,如:文本推理、问答、语义相似度分析和文档分类等。尽管有丰富的未打标语料可以使用,但针对特定任务的打标数据仍是稀缺的,使得模型很难被充分训练。我们提出来 Generative Pre-Training模型,在未打标的语料上预训练模型,然后在每个下游任务上设计不同的微调任原创 2022-04-25 21:17:18 · 1612 阅读 · 0 评论 -
SimCSE: Simple Contrastive Learning of Sentence Embeddings
摘要这篇文章提出了SimCSE,一个简单的对比学习网络架构,可以取得超过SOTA的句子级别表征性能。我们首先阐述了非监督方法,将一个句子作为输入,并以标准的dropout作为噪声的对比学习的方式预测这个句子本身。这种简单的方法效果出奇地好,基本可以达到之前监督学习的水准。我们发现,dropout是作为最小数据增强的功能,将其移除掉会导致表达能力的急剧降低。然后,我们又提出监督学习的方式,结合NLP任务中的打标样本对,将”蕴含“句子对作为正样本,将”矛盾“句子对作为负样本。在标准的STS任务上进行评估,我原创 2022-04-08 16:06:19 · 3947 阅读 · 0 评论 -
Bert的四处dropout,你知道都在哪里嘛?
第一处:embedding后的dropoutdef embedding_postprocessor(input_tensor, use_token_type=False, token_type_ids=None, token_type_vocab_size=16, token_type原创 2022-04-06 18:01:38 · 3361 阅读 · 0 评论 -
NLP中的数据增强方法综述
论文链接:A Survey of Data Augmentation Approaches for NLP摘要由于越来越多的研究在低资源领域、新任务和需要大量训练数据的大规模神经网络中,NLP中的数据增强最近引起广泛的兴趣。尽管研究工作剧增,但对这个领域的探索仍然不够,也许是由于NLP本身的挑战带来的。这篇论文中,我们通过结构化的方式总结相关文献,给出了一个全面的、统一的数据增强综述。首先,介绍了NLP中数据增强的动机,从方法论上论述了这些有代表性的方法。其次,我们强调了用在NLP领域和任务上的数据增强原创 2022-04-01 11:19:22 · 4268 阅读 · 0 评论 -
word2vec 要点梳理
论文链接:Efficient Estimation of Word Representations in Vector Space哈夫曼树输入:权值为(w1,w2,...,wn)(w1, w2, ..., wn)(w1,w2,...,wn)的n个节点【对应文本的话,为每个词的词频】输出:对应的哈夫曼树step1:将(w1,w2,...,wn)(w1, w2, ..., wn)(w1,w2,...,wn)看做是有n棵树的森林,每棵树仅有一个几点;step2:在森林中选择根节点权值最小的两棵树进行合并,得原创 2022-03-24 11:49:05 · 588 阅读 · 0 评论 -
常见bert梳理
常见bert梳理Bert-base-chineseBert-wwmRoBERTaSpanBertAlBertXLnet (Generalized Autoregressive Pretraining for Language Understanding)ERNIE(Enhanced Representation from kNowledge IntEgration)MacBertSimBertWoBert [Word-based BERT]RoFormer 【[RoFormer: Enhanced Tran原创 2022-03-23 09:46:18 · 1221 阅读 · 0 评论 -
M6:中文多模态预训练模型
M6: A Chinese Multimodal Pretrainer摘要我们构建了最大数据集的中文多模态预训练模型,包含多个领域的1.9T的图片和292G的文本。我们提出了一种称为M6(Multi-Modality to MultiModality Multitask Mega-transformer)的跨模态预训练方法,以便对单模态和多模态的数据进行统一的预训练。我们将模型的参数扩展到100亿和1000亿,构建了有史以来最大的中文预训练模型。我们将这个模型应用到一系列下游任务,模型性能超过之前的原创 2022-03-17 20:20:06 · 2918 阅读 · 0 评论 -
基于信息熵的新词发现算法
很早的一篇文章,作者提出文本片段的三个指标:频数、凝合程度、自由程度,基于信息熵计算自由程度,基于联合概率计算出凝合程度,分别设定候选词最大长度和三个指标的阈值,发现新词。原为链接如下,互联网时代的社会语言学:基于SNS的文本数据挖掘实现代码可参考苏神,链接:新词发现的信息熵方法与实现import numpy as npimport pandas as pdimport refrom numpy import log,minf = open('data.txt', 'r') #读取文原创 2022-03-13 10:26:36 · 464 阅读 · 0 评论 -
MLM模型中,是否应该按15%的比例mask?
摘要MLM模型约定俗成按照15%的比例mask,主要是基于两点:更多的mask比例对于学习更好的表征不能提供足够的上下文信息,较小的mask比例又增加模型训练的难度。诧异的是,我们研究发现对输入tokens 进行40%的mask要比15%的效果更好,而且80%的mask仍然能保留下游微调任务的大部分性能。我们从消融实验研究发现,增加mask比例,会两点显著的影响,1)更大比例的输入tokens被盖住了,降低了上下文的长度,增加了学习任务的困难程度;2)模型要做更多的预测,这对训练时有利的。我们研究发现,原创 2022-02-22 15:15:30 · 2609 阅读 · 0 评论