AI
文章平均质量分 89
Facico
生命是闪耀的此刻,不是过程,就像芳香不需要道路一样。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
A Large-Scale Chinese Short-Text Conversation Dataset
A Large-Scale Chinese Short-Text Conversation Dataset大型中文短文本对话数据集提供已清洗中文对话数据集LCCC,有base、large版本所有模型和数据https://github.com/thu-coai/CDial-GPT数据集采用了推特、Reddit、微博以及技术论坛等社交媒体来建立语料库。公开的资源语料库非常丰富的,但也包含了许多噪音点,这些噪音点需要处理。通过众包资源来构建高质量的对话数据集,服务于更高级的对话任务如维基原创 2021-08-01 17:07:25 · 2407 阅读 · 15 评论 -
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval
Approximate Nearest Neighbor Negative ContrastiveLearning for Dense Text Retrieval密集检索 (DR) 的有效性通常需要与稀疏检索相结合主要瓶颈在训练机制,训练中使用的负面实例不能代表不相关文档本文介绍最邻近负对比估计(ANCE):从语料库的最邻近(ANN)索引构造负样本的计件制,该索引与学习过程并行更新以选择更真实的负样本(这种方式从根本上解决了DR训练和测试中数据分布间的差异)实验中,ANCE提升了BERT-Si原创 2021-07-20 13:33:23 · 3779 阅读 · 0 评论 -
Dense Passage Retrieval for Open-Domain Question Answering
Dense Passage Retrieval for Open-Domain Question Answering段落检索是open domian QA的重要问题传统方法是使用稀疏向量空间模型,如TF-IDF或BM25本文重点研究室是密集向量空间模型,密集表示采用简单的双层编码器框架,同时采用了非常少的问题和段落对传统检索器的问题传统检索器不能很好匹配语义关系,只能关键词匹配而密集向量检索器通过语义训练,可以更好捕获语义信息...原创 2021-07-20 00:21:56 · 1369 阅读 · 0 评论 -
Understanding the Behaviors of BERT in Ranking
Understanding the Behaviors of BERT in Ranking该文章主要是研究BERT在passage re-ranking任务上的效果数据集MS MARCO数据集:QA问答数据集,从Bing上的用户搜索日志中的一些query,以及对应的一些候选passage。该任务的要求便是从候选的passage中选择能够回答该query的正确passage,包含一百多万个query和一百多万个passage。ClueWeb数据集类似四种基于BERT的模型1.BERT(Rep)原创 2021-07-17 20:13:55 · 464 阅读 · 0 评论 -
Passage Re-ranking with BERT
Passage Re-ranking with BERTtask有一个给定的问题,要给出答案分三个阶段1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档2、passage re-ranking:对这些文档打分并重paixu3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案这篇论文主要是研究第二个阶段方法要做的工作即是:对于一个询问qqq,一个候选文章did_idi,给出一个分数sis_isi询问为句子A,限制在64个token内文章原创 2021-07-17 19:05:49 · 1381 阅读 · 0 评论 -
TransE:Translating Embeddings for Modeling Multi-relational Data
Translating Embeddings for Modeling Multi-relational Data目的即知识图谱提取成向量知识图谱三元组一般形式(sub,rel,obj)如:(Barack Obama, place of birth, Hawai),这个关系就是Hawai是Barack Obama的place of birth这只是三元组的一种形式,从属、包含、什么什么是什么等等关系都能变成三元组类似词向量的构建,这里希望将KG(knowledge graph)中的原创 2021-06-07 11:03:51 · 557 阅读 · 0 评论 -
GCN与文本分类Graph Convolutional Networks for Text Classification
TextGCNGraph Convolutional Networks for Text Classificationhttps://github.com/yao8839836/text_gcn?utm_source=catalyzex.com属于把GCN用在NLP上的开山之作,构造比较简单,效果也不错,不过使用的是最简单的“频域卷积网络”,所以速度比价慢不知道作者有没有试过简易的多项式的GCN核或切比雪夫网络构造图边权Ai,j={PMI(i,j)i,j都是单词,PMI(i,j)>原创 2021-06-01 09:14:55 · 920 阅读 · 1 评论 -
图卷积网络GCN
GCNCNN中的卷积本质上就是共享参数的过滤器,可以较为有效地提取空间特征而很多其他的研究中还有很多非欧拉结构的数据1.CNN无法处理非欧拉结构的数据,传统的离散卷积在Non Euclidean Structure的数据上无法保持平移不变性2.希望在拓扑图上有效地提取空间特征来进行机器学习3.广义上来讲任何数据在赋范空间内都可以建立拓扑关联,因此GCN有很大的应用空间提取拓扑图空间特征的两种方式(1)vertex domain把顶点相邻的点找出来问题就变成:怎么确定相邻点,原创 2021-05-30 09:56:00 · 547 阅读 · 0 评论 -
DUMA: Reading Comprehension with Transposition Thinking
DUMA: Reading Comprehension with Transposition Thinking验证了我看完DCMN+的猜想,将复杂的DCMN+的模型换上了attentionencoder接一个预训练模型decoder来预测答案两层之间加一个Dual Multi-head Co-Attention (DUMA) layerEncoder还是拼接P=[p1,p2,...,pm],Q=[q1,q2,...,qn],A=[a1,a2,...,ak]E=Enc(P⊕Q⊕A)=[e原创 2021-04-25 11:11:20 · 718 阅读 · 0 评论 -
DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension
DCMN+: Dual Co-Matching Network for Multi-choice Reading ComprehensionRACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料基于bert的以往做法:把(question,choice)连在一起看成一个句子,然后和passage做匹配缺点:这样question和choice之间没有交互信息上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应原创 2021-04-20 14:42:34 · 686 阅读 · 0 评论 -
A Probabilistic Formulation of Unsupervised Text Style Transfer
A Probabilistic Formulation of Unsupervised Text Style Transfer无监督的问题转化设X={x(1),x(2),…,x(m)}X=\{x^{(1)}, x^{(2)},\dots,x^{(m)}\}X={x(1),x(2),…,x(m)}是领域D1D_1D1的数据,Y={y(m+1),y(m+2),…,y(n)}Y=\{y^{(m+1)}, y^{(m+2)},\dots,y^{(n)}\}Y={y(m+1),y(m+2),…,y(n)}是领域原创 2021-04-14 10:00:53 · 462 阅读 · 0 评论 -
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation大致流程1、Matching:在目标语料库构造语义相似的伪平行样本2、使用seq2seq类的模型,学习一个文本生成器3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能1、Matching在第0(t=0t=0t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本X^,Y^(0)\hat X,\hat Y^{(0)}X原创 2021-04-14 08:14:13 · 438 阅读 · 0 评论 -
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISION
ON VARIATIONAL LEARNING OF CONTROLLABLEREPRESENTATIONS FOR TEXT WITHOUT SUPERVISIONCP-VAE解决VAE在文本生成的过程中,在聚合后验的隐藏空间中表示中产生大量空洞区域提出一个将后验概率约数到一个简单值的方法,通过调控这个简单值来实现对隐层表示的控制同时在无监督的长句子生成中表现良好(如风格转换任务)method将模型分成两个部分:1、我们希望控制的相关因子z(1)z^{(1)}z(1);2、无关因原创 2021-03-31 20:37:55 · 328 阅读 · 0 评论 -
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent RepresentationControllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation由于将风格和内容分开可能会破坏完整性,这里采用风格和内容纠缠在一起来表示整个模型被分为三个部分1、encoderEθeE_{\原创 2021-03-15 18:56:35 · 497 阅读 · 0 评论 -
Unsupervised Text Generation by Learning from Search(TGLS)
Unsupervised Text Generation by Learning from Search(TGLS)Unsupervised Text Generation by Learning from Search"先搜索后学习"的无监督文本生成方法在paraphase generation和text formalization上,无监督模型上SOTA,有逼近监督模型的效果文章的主要贡献1、提出了无监督文本生成的通用模型框架(TGLS),在搜索中学习2、展示了将大规模预训练模型原创 2021-03-14 00:16:49 · 572 阅读 · 0 评论 -
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models
SMART: Robust and Efficient Fine-Tuning for Pre-trainedNatural Language Models through Principled RegularizedOptimizationSmoothness-inducing Adversarial Regularizationfine-tunning的优化如下minθF(θ)=L(θ)+λSRS(θ)whereL(θ)=1n∑i=1nℓ(f(xi;θ),yi)(损失函数)\min_{\the原创 2021-03-11 21:31:16 · 536 阅读 · 0 评论 -
Virtual Adversarial Training(VAT)
Virtual Adversarial Training:A Regularization Method for Supervised and Semi-Supervised Learnimg对抗训练Goodfellow对对抗训练损失函数定义如下Ladv(xl,θ)=D[q(y∣xl),p(y∣xl+radv,θ)]whereradv=argmaxD[q(y∣xl),p(y∣xl+radv,θ)]L_{adv}(x_l,\theta)=D[q(y|x_l),p(y|x_l+r_{adv},\thet原创 2021-03-10 16:56:48 · 840 阅读 · 0 评论 -
Style Transfer from Non Parallel Text by Cross Alignment
Style Transfer from Non Parallel Text by Cross Alignment引入一个跨语料库(两个语料库有相同的content,但数据非并行)且能精确对齐的表达学习一个encoder,可以把input映射到一个与style无关的content表达。再将其传递给与style有关的decoder解码。不用VAE(变分自编码器),因为我们需要使潜在content表达更丰富与自然三个任务:情感转化,单词替换密码的破译,恢复语序和CV的风格转化一样的有原创 2021-03-10 16:10:10 · 742 阅读 · 0 评论 -
DeBERTa
DeBERTa[DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654)code:https://github.com/microsoft/DeBERTaGPT2差不多的参数,15亿参数。。。keyDisentangled Attention(分散注意力)架构和bert类似,主要区别是Attention分数计算额外增加了位置信息BERT:每个输入层to原创 2021-03-09 20:53:23 · 1259 阅读 · 0 评论 -
UNILM
UNILMUnified Language Model Pre-training for Natural Language Understanding and Generationkey综合所有的LM - 像bert在NLU任务上表现很好,但是在NLG任务上表现就不太行,UNILM就可以兼备两个任务采用三个无监督目标:双向LM,单向LM,Sequence-to-Sequence LMUNILM模型单向LM,双向LM和Sequence-to-Sequence LM之间的transf原创 2021-03-09 20:21:31 · 584 阅读 · 0 评论 -
StructBERT(ALICE)
StructBERT(ALICE)STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING效果仅次于ERNIE2.0,在GLUE上比ERNIE2.0高,目前国内GLUE绑最高作品先看两句话i tinhk yuo undresatnd this sentneces.研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的上面全是乱序,改进原创 2021-02-22 22:16:52 · 455 阅读 · 0 评论 -
ERNIE 1.0->ERNIE2.0
ERNIEERNIE: Enhanced Representation from kNowledge IntEgration百度在bert上的改进,适用于中文NLP模型知识增强bert通过字的搭配可以很容易推测出mask中的字,如乒乓[球],但是不能显示地对语义信息进行建模(如乒乓球)因此提出了短语和实体级别的mask方式,通过此方法融合外部知识[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3GfqbWy-1613551656503)(https:原创 2021-02-22 22:17:04 · 1405 阅读 · 2 评论 -
K-BERT
K-BERTK-BERT: Enabling Language Representation with Knowledge Graphbert在特定领域表现不好融合KG借鉴并改进ERNIE1、知识图谱中的关系信息没有被用到2、实体向量和词向量是使用不同的方法得到的,可能存在空间不一致3、对于实体数量巨大的大规模知识图谱,实体向量表将占据很大的内存上图输入句子:Tim Cook is currently visiting Beijing now关联的三元组信息:Apple原创 2021-02-22 22:17:15 · 641 阅读 · 0 评论 -
sentence-BERT
sentence-BERTSentence-BERT: Sentence Embeddings using Siamese BERT-Networks工程论文,应用效果很好在文本相似性任务上,之前的bert系列已经可以达到sota,但是bert要求句对拼接到一起传入模型,这样会造成巨大的计算开销如用10000条句子,大概会计算10000*10000/2=50000000次,如果使用bert要花65小时这就导致很多相似度计算、聚类等任务不能较好的进行这里sentence-BERT基于预训练过的原创 2021-02-17 15:56:38 · 1183 阅读 · 1 评论 -
DistillBERT
DistillBERTDistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter不同于two-step,distillBERT在预训练的时候蒸馏知识蒸馏softmax的温度知识蒸馏的losssoft labels/soft prediction:teacher输出soft labels作为结果提供给student学习,最后得到distillation loss(Lsoft\mathcal{L原创 2021-02-17 15:55:23 · 850 阅读 · 0 评论 -
ELECTRA
ELECTRAEfficiently Learning an Encoder that Classifies Token Replacements Accurately特点1:使用了新的模型预训练框架,采用generator和discriminator的结合方式,但不同于GAN2:将Masked Language Model的方式改为了replaced token detection3:模型小,设备要求低(小模型时表现好,大模型时效果不如其他) 将MLM换成replaced原创 2021-02-17 12:54:43 · 353 阅读 · 0 评论 -
ALBERT
ALBERTALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations主要优化在参数的减少Factorized embedding parameterization作者实验发现,把bert的hidden state增大效果会降低,所以反向考虑将参数减少(BERT-xlarge是hidden-state较大的)设embedding的维度为E,hidden state的维度为H,在bert中E=HE原创 2021-02-17 12:53:29 · 366 阅读 · 0 评论 -
Hidden Technical Debt in Machine Learning Systems论文小记
Hidden Technical Debt in Machine Learning Systems这篇文章主要针对在AI项目开发、团队合作中的技术债的问题,一篇很有意思的综述论文现在的趋势是开发和部署ML系统相对快速且便宜,但是要维护却困难且昂贵,可以通过技术债(oftechnical debt)的角度理解,而承担这些债务需要和里的战略理由一般技术债可以通过:重构代码(refactoring code)、改进单元测试(improvingunit tests)、删掉没用的代码(deletingde原创 2020-11-06 15:39:44 · 1078 阅读 · 0 评论 -
Position信息的处理
NLP问题中,位置的相关信息是非常重要的信息、 如在RNN中,就能自然的处理出位置的相关信息 但是在transformer模型中,由于self-attention的方法,会导致位置信息的丢失最简单的形式PE(positionembedding)=pos=0,1,2,...,T−1PE(position embedding)=pos=0,1,2,...,T-1PE(positionembedding)=pos=0,1,2,...,T−1这样处理:在文本长的时候,PE的值会很大,影响了原来.原创 2020-10-23 18:00:01 · 549 阅读 · 0 评论 -
PEGASUS
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization针对文本摘要任务本身提出了新的监督式的预训练目标GSG在12个文本摘要数据集实现了SOTA(state-of-the-art)在低资源的情形下能取得不错的效果GSG(Gap Sentence Generation)GSG做和Bert类似的处理,将mask信息的层级提高到句子(就是每次mask掉几个句子),为了更接近生成式摘要,对于ma原创 2020-10-05 08:10:56 · 642 阅读 · 0 评论 -
Bert学习小记
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understandingembeddinginput embedding = token embedding + segmentation embedding + position embeddingsegment embedding对于句子对来说(两个句子放在一起训练),EA表示坐标的句子,EB表示右边的句子[CLS]每个序列的第一个标记[SEP]句子原创 2020-10-01 16:32:38 · 423 阅读 · 0 评论 -
联邦学习(Federated Learning)学习小记
联邦学习设计目标与框架在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习例如两公司要联合训练一个AI框架,但是又无法直接进行数据交换,可以使用联邦学习来建立模型。更广泛的模型就是通过众多的用户端得到的**“非平衡且非独立同分布”**的数据来训练。更形象点:正常的机器学习模型是把数据收集到服务器端,将数据带到代码面前来;而联邦学习则是把代码发送到数据端,从而使用户的数据无需上传就可以参与模型的训练。不过在用户端需要上传训原创 2020-09-25 14:55:40 · 7185 阅读 · 12 评论 -
RCNN的演绎之路
RCNN、Fast-RCNN、Faster-RCNNtwo-stage的方法:主要思路就是RCNN的思路准确度较one-stage的方法高(SSD,Yolo),但是慢RCNN思路很简单候选框->CNN提取特征->一堆SVM分类->边框回归精调(还有一些NMS,难负例之类的调节)(详见之前的博客)缺点体量笨重,步骤繁琐,内存占空间大慢(测试与训练):比如每次对大量大面积重叠的候选框跑CNNFast-RCNN考虑上面的慢的因素,从而把大量的候选原创 2020-09-23 14:33:57 · 316 阅读 · 0 评论 -
sklearn的preprocessing
preprocessing缺失值的处理简单的preprocessing直接用pandas,类似dataO['Sex'] = dataO['Sex'].apply(lambda s: 1 if s == 'male' else 0)dataO["Age"] = dataO["Age"].fillna(dataO["Age"].median())dataO["child"] = dataO["Age"].apply(lambda x: 1 if x < 15 else 0)dataO["Emb原创 2020-09-23 14:32:06 · 557 阅读 · 0 评论 -
PassGAN论文学习
PassGAN用于对于泄漏的密码库中还原真实的密码分布传统密码爆破工具HashCat和John the Ripper(JTR)可以每秒对密码hash值检测数十亿的密码来破译hash值,还能根据一些规则生成新密码缺点:1、这些规则只要当前的数据集中表现良好,创造一个适应新数据集的规则很麻烦,还需要相关的专业知识2、这些规则基于用户的直觉,而不是大数据PassGAN的优点1、通过密码数据分析,而不是手动分析2、能生成高质量的密码,且能和老湿规则媲美,也能补充密码规则3、能生成无原创 2020-09-23 14:31:23 · 1245 阅读 · 0 评论 -
Perceptual Losses for Real-Time Style Transferand Super-Resolution论文学习
Perceptual Losses for Real-Time Style Transferand Super-Resolution处理经典问题:图像转化问题(image transformation tasks),如快速风格迁移和超分辨率灵感前向传播的神经网络优点:速度快缺点:在像素级之间的误差中不能捕获输出和ground truth 之间的感知误差(perceptual differences)。感知误差函数(perceptual loss function)近期,有很多原创 2020-09-22 08:18:06 · 134 阅读 · 0 评论 -
Professor forcing算法
Professor forcing引入前的想法teacher forcing的不足teacher forcing的方法通过将被观测的序列值作为训练过程中的输入和使用该网络自己的提前一步预测(one-step-ahead-predictions)l来进行多步采样比如时间序列的条件分布模型:P(y1,y2,...,yT)=P(y1)∏t=1TP(yt∣y1,...,yt−1)P(y_1,y_2,...,y_T)=P(y_1)\prod_{t=1}^T P(y_t|y_1,...,y_{t原创 2020-09-22 08:17:43 · 1114 阅读 · 0 评论 -
R-CNN学习小记
R-CNN《Rich feature hierarchies for accurate object detection and semantic segmentation》创新(虽然已是经典)第一次把CNN放在物体检测的算法,采用CNN网络提取特征,从经验驱动的人造特征范式HOG、SIFT到数据驱动的表示学习范式,提高了图像特征的表达能力采用大样本下有监督的预训练,在加上下样本微调的方式解决小样本难以训练甚至过拟合的问题流程1、找出候选框(region proposals)1、原创 2020-09-22 08:16:54 · 266 阅读 · 0 评论 -
Selective Search(选择性搜索)算法学习
Selective Search(选择性搜索)算法在目标检测中,这个算法,可以启发式地搜索出可能包含物体的区域,而不用随机盲目地找很多个方框。最简单的目标检测我们的思路是先搞出一些小的方框(不一定是方块,但一定是连在一起的区域),然后不断的合并一、图像分割为了方便合并,我们先处理出一些小的区域我们这里用felzenszwalb的图像分割算法简单的来说这个算法就是对图像做一个简单的聚类,什么样的聚类又快又简单呢?----最小生成树!skimage.segmentation.原创 2020-09-22 08:16:34 · 1378 阅读 · 4 评论 -
SeqGAN
SeqGAN对于NLP用GAN最主要是要解决一个离散值梯度的问题,就比如字典空间的编号是[0,1,2,3],你新生成的句子是[1.1,2,3]这样就没有什么意义。在离散的数据里面GAN是不work的既然梯度不好计算就容易想到RL中的Policy Gradient,然后这里作者就用了RL不过有个问题,RL对于一个句子好坏的评判只能对于整个句子的得到reward而不能对于部分句子,不能像普通的RNN那样对于一个及时的输出来评判解决的方法也很简单,我们在句子长度还不到T的时候,用蒙特卡洛树搜索来补全原创 2020-09-22 08:16:11 · 479 阅读 · 0 评论
分享