自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Facico的博客

程序员之所以犯错误,不是因为他们不懂,而是因为他们自以为什么都懂。

  • 博客(514)
  • 论坛 (1)
  • 收藏
  • 关注

原创 博客迁回通知

OI退役后就没怎么打博客了,但到大学学了些新的东西还是打打博客比较好。然后,在gtihub自建站用了一年。确实是可修改性比较强,但是由于我比较懒,用了hexo的一个模板之后再也没变过。而且由于github也不太稳定,经常性的网页、图源之类的崩溃,隔三差五的hexo就冒几个错出来。不搞了,我回来了!!! facico.github.io暂停运营...

2020-09-17 15:23:47 57 1

原创 DUMA: Reading Comprehension with Transposition Thinking

DUMA: Reading Comprehension with Transposition Thinking验证了我看完DCMN+的猜想,将复杂的DCMN+的模型换上了attentionencoder接一个预训练模型decoder来预测答案两层之间加一个Dual Multi-head Co-Attention (DUMA) layerEncoder还是拼接P=[p1,p2,...,pm],Q=[q1,q2,...,qn],A=[a1,a2,...,ak]E=Enc(P⊕Q⊕A)=[e

2021-04-25 11:11:20 26

原创 DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension

DCMN+: Dual Co-Matching Network for Multi-choice Reading ComprehensionRACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料基于bert的以往做法:把(question,choice)连在一起看成一个句子,然后和passage做匹配缺点:这样question和choice之间没有交互信息上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应

2021-04-20 14:42:34 26

原创 A Probabilistic Formulation of Unsupervised Text Style Transfer

A Probabilistic Formulation of Unsupervised Text Style Transfer无监督的问题转化设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1​的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域

2021-04-14 10:00:53 19

原创 IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation大致流程1、Matching:在目标语料库构造语义相似的伪平行样本2、使用seq2seq类的模型,学习一个文本生成器3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能1、Matching在第0(t=0t=0t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本X^,Y^(0)\hat X,\hat Y^{(0)}X

2021-04-14 08:14:13 29

原创 ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISION

ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISIONCP-VAE解决VAE在文本生成的过程中,在聚合后验的隐藏空间中表示中产生大量空洞区域提出一个将后验概率约数到一个简单值的方法,通过调控这个简单值来实现对隐层表示的控制同时在无监督的长句子生成中表现良好(如风格转换任务)method将模型分成两个部分:1、我们希望控制的相关因子z(1)z^{(1)}z(1);2、无关因

2021-03-31 20:37:55 21

原创 Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation

Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent RepresentationControllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation由于将风格和内容分开可能会破坏完整性,这里采用风格和内容纠缠在一起来表示整个模型被分为三个部分1、encoderEθeE_{\

2021-03-15 18:56:35 42

原创 Unsupervised Text Generation by Learning from Search(TGLS)

Unsupervised Text Generation by Learning from Search(TGLS)Unsupervised Text Generation by Learning from Search"先搜索后学习"的无监督文本生成方法在paraphase generation和text formalization上,无监督模型上SOTA,有逼近监督模型的效果文章的主要贡献1、提出了无监督文本生成的通用模型框架(TGLS),在搜索中学习2、展示了将大规模预训练模型

2021-03-14 00:16:49 31

原创 SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models

SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models through Principled RegularizedOptimizationSmoothness-inducing Adversarial Regularizationfine-tunning的优化如下min⁡θF(θ)=L(θ)+λSRS(θ)whereL(θ)=1n∑i=1nℓ(f(xi;θ),yi)(损失函数)\min_{\the

2021-03-11 21:31:16 21

原创 Virtual Adversarial Training(VAT)

Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learnimg对抗训练Goodfellow对对抗训练损失函数定义如下Ladv(xl,θ)=D[q(y∣xl),p(y∣xl+radv,θ)]whereradv=argmaxD[q(y∣xl),p(y∣xl+radv,θ)]L_{adv}(x_l,\theta)=D[q(y|x_l),p(y|x_l+r_{adv},\thet

2021-03-10 16:56:48 32

原创 Style Transfer from Non Parallel Text by Cross Alignment

Style Transfer from Non Parallel Text by Cross Alignment引入一个跨语料库(两个语料库有相同的content,但数据非并行)且能精确对齐的表达学习一个encoder,可以把input映射到一个与style无关的content表达。再将其传递给与style有关的decoder解码。不用VAE(变分自编码器),因为我们需要使潜在content表达更丰富与自然三个任务:情感转化,单词替换密码的破译,恢复语序和CV的风格转化一样的有

2021-03-10 16:10:10 41

原创 DeBERTa

DeBERTa[DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654)code:https://github.com/microsoft/DeBERTaGPT2差不多的参数,15亿参数。。。keyDisentangled Attention(分散注意力)架构和bert类似,主要区别是Attention分数计算额外增加了位置信息BERT:每个输入层to

2021-03-09 20:53:23 77

原创 UNILM

UNILMUnified Language Model Pre-training for Natural Language Understanding and Generationkey综合所有的LM - 像bert在NLU任务上表现很好,但是在NLG任务上表现就不太行,UNILM就可以兼备两个任务采用三个无监督目标:双向LM,单向LM,Sequence-to-Sequence LMUNILM模型单向LM,双向LM和Sequence-to-Sequence LM之间的transf

2021-03-09 20:21:31 28

原创 K-BERT

K-BERTK-BERT: Enabling Language Representation with Knowledge Graphbert在特定领域表现不好融合KG借鉴并改进ERNIE1、知识图谱中的关系信息没有被用到2、实体向量和词向量是使用不同的方法得到的,可能存在空间不一致3、对于实体数量巨大的大规模知识图谱,实体向量表将占据很大的内存上图输入句子:Tim Cook is currently visiting Beijing now关联的三元组信息:Apple

2021-02-22 22:17:15 40

原创 ERNIE 1.0->ERNIE2.0

ERNIEERNIE: Enhanced Representation from kNowledge IntEgration百度在bert上的改进,适用于中文NLP模型知识增强bert通过字的搭配可以很容易推测出mask中的字,如乒乓[球],但是不能显示地对语义信息进行建模(如乒乓球)因此提出了短语和实体级别的mask方式,通过此方法融合外部知识[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3GfqbWy-1613551656503)(https:

2021-02-22 22:17:04 146

原创 StructBERT(ALICE)

StructBERT(ALICE)STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING效果仅次于ERNIE2.0,在GLUE上比ERNIE2.0高,目前国内GLUE绑最高作品先看两句话i tinhk yuo undresatnd this sentneces.研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的上面全是乱序,改进

2021-02-22 22:16:52 38

原创 sentence-BERT

sentence-BERTSentence-BERT: Sentence Embeddings using Siamese BERT-Networks工程论文,应用效果很好在文本相似性任务上,之前的bert系列已经可以达到sota,但是bert要求句对拼接到一起传入模型,这样会造成巨大的计算开销如用10000条句子,大概会计算10000*10000/2=50000000次,如果使用bert要花65小时这就导致很多相似度计算、聚类等任务不能较好的进行这里sentence-BERT基于预训练过的

2021-02-17 15:56:38 181 1

原创 DistillBERT

DistillBERTDistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter不同于two-step,distillBERT在预训练的时候蒸馏知识蒸馏softmax的温度知识蒸馏的losssoft labels/soft prediction:teacher输出soft labels作为结果提供给student学习,最后得到distillation loss(Lsoft\mathcal{L

2021-02-17 15:55:23 65

原创 TinyBERT

TinyBERTTinyBERT: Distilling BERT for Natural Language Understanding对Bert encoding中Transformer进行压缩,使用two-step学习框架在精度允许的范围内节约计算资源和推理速度Transformer蒸馏Embedding-layer DistillationLembd=MSE(ESWe,ET)ES∈Rl×d0,ET∈Rl×dl:sequencelengthd0:studentembedding维度d:t

2021-02-17 12:56:49 57

原创 SpanBERT

SpanBERTSpanBERT: Improving Pre-training by Representing and Predicting Spans没有segment embedding,只有一个长句子,类似RoBERTa使用Span Masking将NSP改成了SBOSpan Masking首先引入了ERINE中的Whole Word Masking、Named Entity Masking、Phrase Masking这上面的做法能让效果提升,但是MASS模型中表明,对于这些词

2021-02-17 12:55:43 34

原创 ELECTRA

ELECTRAEfficiently Learning an Encoder that Classifies Token Replacements Accurately特点1:使用了新的模型预训练框架,采用generator和discriminator的结合方式,但不同于GAN2:将Masked Language Model的方式改为了replaced token detection3:模型小,设备要求低(小模型时表现好,大模型时效果不如其他)​ 将MLM换成replaced

2021-02-17 12:54:43 42

原创 ALBERT

ALBERTALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations主要优化在参数的减少Factorized embedding parameterization作者实验发现,把bert的hidden state增大效果会降低,所以反向考虑将参数减少(BERT-xlarge是hidden-state较大的)设embedding的维度为E,hidden state的维度为H,在bert中E=HE

2021-02-17 12:53:29 34

原创 RoBERTa与Adv-RoBERTa

RoBERTaRoBERTa:A Robustly Optimized BERT Pretraining Approach比起bert的改进1、训练的时间更长2、移除了next predict loss(就是没有NSP部分)3、训练的序列更长4、动态调整masking机制bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码如dupe_factor=10, epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数

2021-02-17 12:50:28 25

原创 NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks

NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks没有什么新思想,就是建立了一个把NLP和RL结合的工具,RL用于1、序列标注(sequence tagging)RL用于解决被结构化的预测任务:如命名实体识别、词性标注2、文本总结(text summarization)RL的agent选择要被用来总结的句子3、QA(question answering)RL的a

2021-02-17 12:48:36 30

原创 众包

Building a Conversational Agent Overnight with Dialogue Self-Play(Google) Building a Conversational Agent Overnight with Dialogue Self-Play领域:单域、多域对话系统对话收集机器对话机器框架(MLM),功能导向性流程,用于训练对话智能体1、通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面2、获得更高质量

2021-02-17 12:47:45 49

原创 XLNet: Generalized Autoregressive Pretrainingfor Language Understanding

XLNet: Generalized Autoregressive Pretrainingfor Language Understanding将bert的autoenconder(AE)模型换成了autoregressive(AR)模型autoregressive模型就是常规的语言概率分布模型,用极大似然p(X)=∏p(xt∣x<t)p(X)=\prod p(x_t|x_{<t})p(X)=∏p(xt​∣x<t​),也可以反向p(X)=∏p(xt∣x>t)p(X)=\pro

2021-02-17 12:41:05 27

原创 Hidden Technical Debt in Machine Learning Systems论文小记

Hidden Technical Debt in Machine Learning Systems这篇文章主要针对在AI项目开发、团队合作中的技术债的问题,一篇很有意思的综述论文现在的趋势是开发和部署ML系统相对快速且便宜,但是要维护却困难且昂贵,可以通过技术债(oftechnical debt)的角度理解,而承担这些债务需要和里的战略理由一般技术债可以通过:重构代码(refactoring code)、改进单元测试(improvingunit tests)、删掉没用的代码(deletingde

2020-11-06 15:39:44 157

原创 Position信息的处理

NLP问题中,位置的相关信息是非常重要的信息、 如在RNN中,就能自然的处理出位置的相关信息 但是在transformer模型中,由于self-attention的方法,会导致位置信息的丢失最简单的形式PE(positionembedding)=pos=0,1,2,...,T−1PE(position embedding)=pos=0,1,2,...,T-1PE(positionembedding)=pos=0,1,2,...,T−1这样处理:在文本长的时候,PE的值会很大,影响了原来.

2020-10-23 18:00:01 105

原创 PEGASUS

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization针对文本摘要任务本身提出了新的监督式的预训练目标GSG在12个文本摘要数据集实现了SOTA(state-of-the-art)在低资源的情形下能取得不错的效果GSG(Gap Sentence Generation)GSG做和Bert类似的处理,将mask信息的层级提高到句子(就是每次mask掉几个句子),为了更接近生成式摘要,对于ma

2020-10-05 08:10:56 118

原创 Bert学习小记

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understandingembeddinginput embedding = token embedding + segmentation embedding + position embeddingsegment embedding对于句子对来说(两个句子放在一起训练),EA表示坐标的句子,EB表示右边的句子[CLS]每个序列的第一个标记[SEP]句子

2020-10-01 16:32:38 93

原创 联邦学习(Federated Learning)学习小记

联邦学习设计目标与框架在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习例如两公司要联合训练一个AI框架,但是又无法直接进行数据交换,可以使用联邦学习来建立模型。更广泛的模型就是通过众多的用户端得到的**“非平衡且非独立同分布”**的数据来训练。更形象点:正常的机器学习模型是把数据收集到服务器端,将数据带到代码面前来;而联邦学习则是把代码发送到数据端,从而使用户的数据无需上传就可以参与模型的训练。不过在用户端需要上传训

2020-09-25 14:55:40 1792 1

原创 Pytorch学习

Pytorch学习Tensor张量tensor是pytorch里面的数据类型标量,向量和矩阵三个其实都是张量,标量是零维的张量,向量是一维的张量,矩阵是二维的张量tensor的成员tensor.data:张量的数据值是什么tensor.grad:该张量的梯度(如果没有就显示NONE)tensor.grad_fn:指向该张量处的函数计算(计算图中的计算节点),进行梯度反向传播的时候会用到。如果是由用户创建的tensor,则该值 为 NONEtensor.grad_fn.next_

2020-09-23 14:34:36 46

原创 RCNN的演绎之路

RCNN、Fast-RCNN、Faster-RCNNtwo-stage的方法:主要思路就是RCNN的思路准确度较one-stage的方法高(SSD,Yolo),但是慢RCNN思路很简单候选框->CNN提取特征->一堆SVM分类->边框回归精调(还有一些NMS,难负例之类的调节)(详见之前的博客)缺点体量笨重,步骤繁琐,内存占空间大慢(测试与训练):比如每次对大量大面积重叠的候选框跑CNNFast-RCNN考虑上面的慢的因素,从而把大量的候选

2020-09-23 14:33:57 90

原创 LightGBM学习小记

LightGBM同样也是决策树从下图实验数据可以看出, LightGBM比XGBoost快将近10倍,内存占用率大约为XGBoost的1/6,并且准确率也有提升。XGboost的优缺点与LightGBM1、精确贪心算法每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。2、Level-wise(按层生长)迭代方式(同时分裂同一层的叶子,从而进行多线程优化,不容易过拟合)很多叶子节点的分裂

2020-09-23 14:33:15 113

原创 LSTM学习小记

LSTM学习小记RNN缺点:对所以信息都进行了存储,数据没有选择性,计算量大;梯度衰减严重。基于以上缺点。X0、X1与输出h t+1之间的距离太长,RNN对长时间记忆有明显的不足。提出了LSTM网络。C:控制参数。决定什么样的信息会被保留什么样的会被遗忘。C值与输出相乘决定遗忘的多少。C的范围为[0,1],当C=0时,全部遗忘;当C=1时,全部记忆;当C=0.5时,部分记忆。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B6RY6Ws9-160028

2020-09-23 14:32:50 34

原创 sklearn的preprocessing

preprocessing缺失值的处理简单的preprocessing直接用pandas,类似dataO['Sex'] = dataO['Sex'].apply(lambda s: 1 if s == 'male' else 0)dataO["Age"] = dataO["Age"].fillna(dataO["Age"].median())dataO["child"] = dataO["Age"].apply(lambda x: 1 if x < 15 else 0)dataO["Emb

2020-09-23 14:32:06 63

原创 PassGAN论文学习

PassGAN用于对于泄漏的密码库中还原真实的密码分布传统密码爆破工具HashCat和John the Ripper(JTR)可以每秒对密码hash值检测数十亿的密码来破译hash值,还能根据一些规则生成新密码缺点:1、这些规则只要当前的数据集中表现良好,创造一个适应新数据集的规则很麻烦,还需要相关的专业知识2、这些规则基于用户的直觉,而不是大数据PassGAN的优点1、通过密码数据分析,而不是手动分析2、能生成高质量的密码,且能和老湿规则媲美,也能补充密码规则3、能生成无

2020-09-23 14:31:23 188

原创 Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习

Perceptual Losses for Real-Time Style Transferand Super-Resolution处理经典问题:图像转化问题(image transformation tasks),如快速风格迁移和超分辨率灵感前向传播的神经网络优点:速度快缺点:在像素级之间的误差中不能捕获输出和ground truth 之间的感知误差(perceptual differences)。感知误差函数(perceptual loss function)近期,有很多

2020-09-22 08:18:06 29

原创 Professor forcing算法

Professor forcing引入前的想法teacher forcing的不足teacher forcing的方法通过将被观测的序列值作为训练过程中的输入和使用该网络自己的提前一步预测(one-step-ahead-predictions)l来进行多步采样比如时间序列的条件分布模型:P(y1,y2,...,yT)=P(y1)∏t=1TP(yt∣y1,...,yt−1)P(y_1,y_2,...,y_T)=P(y_1)\prod_{t=1}^T P(y_t|y_1,...,y_{t

2020-09-22 08:17:43 128

原创 PyQt5学习小记

PyQt5学习小记创建一个小窗口from PyQt5.QtWidgets import QApplication, QWidgetimport sysif __name__ == '__main__': app = QApplication(sys.argv) w = QWidget() w.resize(250, 150) w.move(100, 100) w.setWindowTitle('Simple') w.show() sys.

2020-09-22 08:17:21 53

空空如也

Facico的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除