- 博客(176)
- 收藏
- 关注
原创 Raki的读paper小记:XLNet: Generalized Autoregressive Pretraining for Language Understanding
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战依靠用掩码破坏输入,BERT忽略了被掩码位置之间的依赖性,并受到预训练-调整差异的影响创新思路通过对因式分解顺序的所有排列组合的预期可能性最大化,实现了双向语境的学习由于其自回归方法,克服了BERT的限制结合了Transformer-XL,打破了512token的限制实验结论大幅超越BERT的性能XL
2022-03-18 13:36:20
567
原创 Raki的读paper小记:RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战创新思路超参数的选择对最终结果有重大影响实验结论bert的训练是不充足的,我们改进了训练方式达到了sotaExperimental SetupImplementationAdam的 ϵ\epsilonϵ 项非常敏感,在某些情况下,我们在调整它之后获得了更好的性能或改善了稳定性。同样地,我们发现在大批量训练时,设
2022-03-18 09:43:46
489
原创 Hugging Face Course-Diving in 抱抱脸 Tokenizers library (WordPiece tokenization & Unigram tokenization)
WordPiece tokenizationwordpiece是bert的分词算法,跟BPE很像,但实际的标记化工作是不同的Training algorithm⚠️ Google never open-sourced its implementation of the training algorithm of WordPiece, so what follows is our best guess based on the published literature. It may not be .
2022-03-17 19:40:28
830
原创 Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT, RoBERTa面临挑战创新思路disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号此外,一个新的虚拟对抗训
2022-03-17 16:21:48
940
原创 Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification
Abstract & Introduction & Related Work研究任务NLP数据增强已有方法和相关工作将句子翻译成法语再翻译回英语面临挑战NLP中的通用数据增强技术还没有被彻底探索过相关工作具有创造性,但往往很复杂,它们在实践中不常被使用,因为相对于性能增益而言,它们的实施成本很高创新思路使用四种方法进行数据增强:同义词替换、随机插入、随机互换和随机删除实验结论在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率EDA同义词
2022-03-17 14:25:56
847
原创 Raki的PRML阅读笔记 第1章:Introduction
第一章主要在讲一些数学基础:概率论,决策论,信息论validation set评估当前参数的表现,用于挑选超参数如果数据量很⼤,那么模型选择很简单。使⽤⼀部分可得到的数据,可以训练出⼀系列的模型,也可以得到某个给定模型的⼀系列复杂度的参数值。之后在独⽴数据上(有时被称为验证集)⽐较它们,选择预测表现最好的模型即可。如果模型的设计使⽤有限规模的数据集迭代很多次,那么对于验证数据会发⽣⼀定程度的过拟合,因此保留⼀个第三⽅的测试集是很有必要的。这个测试集⽤来最终评估选择的模型的表现但是在许多实际应⽤中,
2022-03-16 10:18:33
349
原创 Raki的NLP竞赛topline解读:NBME - Score Clinical Patient Notes
Description当你去看医生时,他们如何解释你的症状可以决定你的诊断是否准确。当他们获得执照时,医生们已经有了很多写病人笔记的练习,这些笔记记录了病人的主诉历史、体检结果、可能的诊断和后续护理。学习和评估写病人笔记的技能需要其他医生的反馈,这是一个时间密集的过程,可以通过加入机器学习来改进。直到最近,第二步临床技能考试是美国医学执照考试®(USMLE®)的一个组成部分。该考试要求应试者与标准化病人(受过训练的人,以描绘特定的临床病例)互动,并写下病人的笔记。训练有素的医生评分员随后用概述每个病例的
2022-03-12 21:27:40
4443
1
原创 Raki的统计学习方法笔记0xF(15)章:奇异值分解
奇异值分解是一种矩阵因子分解方法,是线性代数的基础概念,在统计学习中被广泛运用,PCA, LSA,pLSA都要用到SVD,而EM,LSA,MCMC,又是LDA的基础,故有了这个笔记顺序任意一个 m * n矩阵,都可以表示为三个矩阵的乘积(因子分解)形式,分别是m阶正交矩阵,由降序排列的非负的对角线元素组成的m * n 矩形对角矩阵 ,n阶正交矩阵成为该矩阵的奇异值分解,矩阵的奇异值分解一定存在但是不唯一。奇异值分解可以看做是矩阵数据压缩的一种方法,即用因子分解的方式近似表示原始矩阵,这种近似是在平方
2022-03-09 16:44:46
1081
原创 Raki的nlp-begginer 提问
task1logistic回归的公式?softmax和logistic的异同点?logistic函数的缺点softmax的特点解释下bag of words 和 n-gram,有什么缺陷交叉熵损失的作用,为什么不选择最小均方误差或者绝对值误差?task2RNN,LSTM,GRU的结构,为什么可以缓解长程依赖问题?word embedding?Word2Vec,GloVe,还知道其他的词表征方式吗?(textrank,tf-idf,LSA,pLSA,ELMo,GPT,fastText,
2022-03-08 16:41:38
1136
1
原创 Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作面临挑战创新思路我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法为了生成字幕,我们采用了广泛使用的transformer解码器实验结论我们的结果将以前报告的最高SPIDEr从16.2提高到17.3Encoder一共有 NtN_tNt 个 CNN块,每个wave-block里面还有七个一维CNN卷积namekernel
2022-03-04 18:44:53
3362
原创 Raki的读paper小记:PromptBERT: Improving BERT Sentence Embeddings with Prompts
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作ConSERTSimCSE面临挑战这些方法的目标是消除句子嵌入中的各向异性。然而,我们发现,各向异性并不是导致语义相似度差的主要原因。例如,在语义文本相似性任务中,对原始BERT的最后一层进行平均化甚至比对其静态标记嵌入进行平均化更差,但最后一层的句子嵌入比静态标记嵌入的各向异性要小一些我们发现分布不仅偏重于频率,而且在WordP
2022-03-03 22:08:24
1834
原创 Raki的读paper小记:ONLINE CORESET SELECTION FOR REHEARSAL-BASED CONTINUAL LEARNING
Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战计算复杂度太高创新思路在一个数据集中,每个数据的重要性是不一样的,数据的质量直接影响模型的有效性和效率,为了处理这个问题,提出Online Coreset Selection,一种简单而有效的方法,在每次迭代中选择最具代表性和信息量的核心集,并以在线方式对其进行训练实验结论我们提出的方法最大限度地提高了模型对当前数据集的适应性,同时选择
2022-03-01 18:00:55
1673
原创 Raki的读paper小记:SimCSE: Simple Contrastive Learning of Sentence Embeddings
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作面临挑战创新思路用一种非常简单的无监督对比学习方法,来预测自己,仅仅使用标准的dropout作为噪声与以前的工作不同的是,之前的工作将其作为一个三分类任务(蕴含、中性和矛盾),我们利用蕴含对可以自然地作为正向实例的事实实验结论sota我们发现,dropout作为最小的数据增广,去除它就会导致表示坍缩增加相应的矛盾对作为ha
2022-03-01 14:07:18
876
原创 Raki的读paper小记:Model Zoo: A Growing “Brain” That Learns Continually
Abstract & Introduction & Related Work研究任务已有方法和相关工作面临挑战创新思路当用协同任务训练时,某项任务的泛化误差可以提高,但用竞争性任务训练时,泛化误差也会恶化。这一理论促使我们采用了名为Model Zoo的方法,该方法受到boosting文献的启发,发展了一个小型模型的集合,每个模型都在持续学习的过程中被训练实验结论我们描述了什么情况下可以用一个模型学习多个任务,同样,什么情况下这样做不利于某个特定任务的准确性上述分析表明,一
2022-02-28 20:49:31
1006
3
原创 Raki的读paper小记:MEMORY REPLAY WITH DATA COMPRESSION FOR CONTINUAL LEARNING
Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战现有的工作主要是建立在一个包含少数原始数据的小的内存缓冲区上,这不能完全描述旧的数据分布现有的工作往往需要训练额外的参数或者蒸馏旧的特征创新思路在这项工作中,我们提出了带有数据压缩的内存重放,以减少旧训练样本的存储成本,从而增加它们可以存储在内存缓冲区的数量我们提出了一种基于决定性点过程(DPPs)的新方法,以有效地确定当前到达的训练样本的适当压缩
2022-02-28 17:54:57
942
原创 Raki的读paper小记:LEARNING FAST, LEARNING SLOW : A GENERAL CONTINUAL LEARNING METHOD
Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作CLS理论认为,高效的学习需要两个互补的学习系统:海马体表现出短期适应性和对偶发信息的快速学习,然后逐渐巩固到新皮层,以便缓慢地学习结构化信息许多现有的方法只注重直接对前额叶皮层进行建模,而没有快速学习网络,而快速学习网络在实现大脑中的高效CL方面起着关键作用面临挑战在深度神经网络(DNNs)中实现CL的主要挑战是,从非稳态数据分布中不断获取增量信息通常会导致灾
2022-02-28 15:13:19
1277
1
原创 Raki的读paper小记:REPRESENTATIONAL CONTINUITY FOR UNSUPERVISED CONTINUAL LEARNING
Abstract & Introduction & Related Work研究任务unsupervised continual learning (UCL)已有方法和相关工作面临挑战现有的方法都限于监督学习,限制了在现实世界中的使用创新思路我们提出了Lifelong Unsupervised Mixup(LUMP),这是一种简单而有效的技术,在当前任务和以前任务的实例之间进行插值,以减轻无监督表征的灾难性遗忘我们试图弥合持续学习和表征学习之间的差距,并解决无标签数据的持
2022-02-25 21:36:18
1106
原创 Raki的读paper小记:SUBSPACE REGULARIZERS FOR FEW-SHOT CLASS INCREMENTAL LEARNING
Abstract & Introduction & Related Work研究任务已有方法和相关工作Few-shot and incremental learningLearning class representationsLearning with side information from language面临挑战创新思路这种方法的关键是一个新的子空间正则化方案系列,它鼓励新类的权重向量接近于现有类的权重所跨越的子空间,可以直接扩展以纳入关于新类的额外背景信息
2022-02-25 15:15:11
1127
原创 Raki的读paper小记:LOOKING BACK ON LEARNED EXPERIENCES FOR CLASS/TASK INCREMENTAL LEARNING
Abstract & Introduction & Related Work研究任务已有方法和相关工作Incremental Learning (IL) methods,目标在于从无限数据流中训练一个单个深度神经网络对使用扩展网络结构的参数隔离方法进行研究考虑一个固定大小的模型参数集,修剪学习一个新的任务在推理过程中不需要知道任务标签,就可以保留以前的类的知识基于经验的回放方法,它存储了过去的实际数据样本Model GrowingMemory ReplayRegula
2022-02-24 20:09:59
599
原创 Raki的读paper小记:LEVERAGING STATE-OF-THE-ART ASR TECHNIQUES TO AUDIO CAPTIONING
Abstract & Introduction & Related Work研究任务已有方法和相关工作面临挑战创新思路使用了最新的ASR技术 in the ESPNet toolkit实验结论SPIDEr score of 0.224 and 0.246PROPOSED METHODOLOGYOverviewData Augmentation我们使用SpecAug[12]进行输入数据增强,包括三种变形–时间扭曲、频率屏蔽和时间屏蔽。我们将最大的时间翘曲参数设
2022-02-22 16:03:25
339
原创 CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING
Abstract & Introduction & Related Work研究任务AAC(自动音频字幕)已有方法和相关工作面临挑战创新思路使用预训练模型,seq2seq模型使用CNN14和ResNet54作为encoder,transformer的decoder实验结论PROPOSED MODELSystem OverviewPre-Processing输入特征使用了log-mel频谱图特征。音频数据的采样频率为44.1kHz,我们采用了1024大小的汉恩窗口,
2022-02-22 15:28:59
1700
原创 Raki的读paper小记:Audio Captioning with Composition of Acoustic and Semantic Information
Abstract & Introduction & Related Work研究任务音频字幕已有方法和相关工作面临挑战创新思路加入了语义信息,使用了semantic embedding,梅尔能源特征,VGGish embedding实验结论sotaProposed Methodlog Mel特征和部分标题是分开编码的首先从音频信号里面抽取PANNs audio embedding,然后从每个音频片段的标题中提取主语-动词嵌入,把这两个embedding conca
2022-02-22 01:40:30
1837
原创 INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作面临挑战创新思路本文首先提出了一个音频描述的主题模型实验结论发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键提出下面两种语音主题模型:局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心
2022-02-21 22:52:15
916
原创 CONTINUAL LEARNING FOR AUTOMATED AUDIO CAPTIONING USING THE LEARNING WITHOUT FORGETTING APPROACH
Abstract & Introduction & Related Work研究任务自动音频字幕已有方法和相关工作大多数现有方法是在已有的数据集上优化和评价learning without forgetting (LwF)elastic weight consolidation (ECW)dynamic architectures like dynamically expandable networks (DEN)replay models like gradient e
2022-02-21 20:40:06
295
原创 Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification
Abstract & Introduction & Related Work研究任务命名实体识别和分类已有方法和相关工作面临挑战创新思路提出了第一种用于zero-shot的NERC的方法引入一个新的架构,利用许多实体类别的文本描述自然发生的事实实验结论在训练过程中被观察到的非实体的词有可能属于其中一个测试类别,基于这种观察我们提出几种不同的架构,基于交叉注意力在语句和类型描述之间用transformer,结合预训练模型我们通过以下方式探索对负类
2022-02-16 00:09:33
3707
原创 Raki的读paper小记:Discontinuous Named Entity Recognition as Maximal Clique Discovery
Abstract & Introduction & Related Work研究任务不连续NER已有方法和相关工作基于组合的模型首先检测所有的重叠span,然后学习用单独的分类器来组合这些片段基于过渡的模型通过一连串的移位-还原动作对不连续的span进行增量标记面临挑战现有的方法将其分为几个连续的阶段,在推理阶段模型输出依赖于前面的阶段,将会累计偏差exposure bias创新思路将不连续NER转化为寻找图中最大团的非参数化过程,避免了受到暴露偏差的问题
2022-02-15 22:51:55
1147
原创 Raki的读paper小记:Named Entity Recognition as Dependency Parsing
Abstract & Introduction & Related Work研究任务嵌套NER已有方法和相关工作面临挑战创新思路用依赖解析来做NER实验结论sotaMethods输入用bert,fasttext,char 三种embeddingbert用(Kantor and Globerson, 2019)的方案,得到一个目标token的上下文相关嵌入,每边有64个周围tokenchar embedding 用CNN三种embedding concat起来丢到
2022-02-15 01:45:11
794
原创 Raki的读paper小记:Neighborhood Matching Network for Entity Alignment
Abstract & Introduction & Related Work如果不是知识图谱选手,请先阅读实体对齐的科普:实体对齐介绍研究任务实体对齐已有方法和相关工作embedding-based methods面临挑战实体对齐是不容易的,因为现实生活中的知识图谱通常是不完整的,而且不同的知识图谱通常有异质的模式。因此,来自于两个知识图谱的同等实体可能有不同的表面形式或不同的邻接结构。相等实体之间的相邻关系不同的问题是无处不在的邻域大小和拓扑结构的差异给
2022-02-14 22:47:19
682
原创 Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition
Abstract & Introduction & Related Work研究任务低资源的命名实体识别已有方法和相关工作将基于语篇标签、词形和手动创建的实体列表(称为地名索引)的语言学特征整合到神经模型中会导致 在英语数据上实现更好的NER面临挑战但直接将地名词典特征整合到这些模型中是很困难的,因为这些语言的地名词典要么覆盖范围有限,要么完全没有。由于缺乏可用的低资源语言的注释者,扩展它们既费时又费钱。创新思路引入了soft-gazetteers,一种基于高
2022-02-13 21:13:35
660
原创 Raki的读paper小记:Code and Named Entity Recognition in StackOverflow
Abstract & Introduction & Related Work研究任务已有方法和相关工作面临挑战创新思路实验结论
2022-02-13 17:43:28
618
原创 神经网络与深度学习第6章:循环神经网络 阅读提问
1.什么是RNN?有什么特点?2.有哪些应用模式?3.什么是LSTM?它的带来了什么改进?4.LSTM中为什么有的门用sigmoid函数有的用Tanh函数?5.为什么门控机制可以work?6.除了堆叠循环神经网络外,还有什么结构可以增加循环神经网络深度?(课后第六题)...
2022-02-12 18:25:53
610
原创 神经网络与深度学习第5章:卷积神经网络 阅读提问
1.卷积神经网络的特点?与前馈神经网络的异同点?2.不同的卷积核的作用是什么?3.汇聚层(pooling layer)的作用是什么?4.1x1卷积有什么作用?5.ResNet为什么可以训练那么深?残差连接为什么work?...
2022-02-12 18:20:58
1103
原创 神经网络与深度学习第4章:前馈神经网络 阅读提问
1.神经网络的主要特性是什么?2.为什么要有激活函数?激活函数需要具备什么特点?3.logistic函数和Tanh函数的异同点?4.ReLU函数为什么能被广泛应用,它有什么优缺点?5.根据通用近似定理,前馈神经网络能拟合任意函数,什么导致它达不到理想效果?6.什么是特征抽取7.推导一下MLP的反向传播8.为什么会出现梯度消失和梯度爆炸?如何减轻?...
2022-02-12 18:14:52
291
原创 神经网络与深度学习第3章:线性模型 阅读提问
1.什么是决策边界?2.logistic regression的激活函数的作用是什么?3.logistic regression的公式?4.softmax和logistic回归的异同点,在二分类的时候是等价的吗?5.描述三类SVM6.核函数的作用?7.平方,hinge,交叉熵,感知器,0-1损失分别适用什么场景,有什么异同点...
2022-02-12 18:09:05
190
原创 神经网络与深度学习第2章:机器学习概述 阅读提问
1.什么是机器学习?通俗地讲,机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律).作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测.2.为什么训练集每个样本都要独立同分布?知乎的问题:为什么机器学习中, 要假设我们的数据是独立同分布的?3.机器学习三个基本要素?模型,学习准则,优化算法4. 为什么模型会过拟合?有什么防止模型过拟合的方法?
2022-02-12 18:02:07
418
原创 神经网络与深度学习第1章:绪论 阅读提问
1. 神经网络和深度学习是等价的吗?并不等价,深度学习可以采用神经网络模型,也可以采用其他模型(比如深度信念网络)2. 浅层学习和深度学习的主要区别是什么?浅层学习的一个重要特点是不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取,而深度学习模型可以自动抽取特征3. 什么是表示学习?什么是好的表示?有哪些表示方法?为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征(比如word embedding),或者更一般性地称为表示(Representation).如果有一种算法可以自
2022-02-12 17:48:27
355
原创 Raki的读paper小记:Bipartite Flat-Graph Network for Nested Named Entity Recognition
Abstract & Introduction & Related Work研究任务嵌套NER已有方法和相关工作面临挑战已有的模型只考虑从最内层到外层的信息的单向传递创新思路双向考虑了内外层子图之间的信息交互实验结论sotaModel首先给出模型总览图外层使用BiLSTM + CRF来抽取平面实体,并将抽取出来的特征构成一个图 G1G^1G1对于图模块,我们使用GCN,它在潜在实体的起点和终点节点之间迭代传播信息以学习内部实体。最后,从图模块学到的
2022-02-08 23:17:48
908
原创 Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work研究任务无标注数据NER学习已有方法和相关工作Unsupervised domain adaptationAggregation of annotationsWeak supervision面临挑战他们的方法依赖于一个临时的机制,用于生成候选span来进行分类创新思路提出一种弱监督学习方法来解决无标注数据的问题使用一个隐马尔可夫模型(HMM),将带有噪声的标记功能统一为一个单一的
2022-02-08 21:21:16
1097
原创 Raki的读paper小记:Sources of Transfer in Multilingual Named Entity Recognition
Abstract & Introduction & Related Work研究任务用多种语言的标注数据来训练模型已有方法和相关工作adapting a model from a high-resource to low-resource language利用有益的多语言特征或数据集的优势无监督表示学习面临挑战尽管可以获得更多的训练数据,但使用来自多种语言的注释数据对NER模型进行的简单训练始终低于仅使用单语数据训练的模型。多语言模型往往不能改善每种语言的结果
2022-02-08 15:30:30
537
原创 Raki的读paper小记:Empower Entity Set Expansion via Language Model Probing
Abstract & Introduction & Related Work研究任务用属于同一语义类别的新实体来扩展一个小的种子实体集,是一项重要的任务。已有方法和相关工作现有的实体集扩展方法通过自适应选择上下文特征和提取新实体来引导种子实体集。面临挑战实体集扩展的一个关键挑战是避免选择模棱两可的上下文特征,因为这将改变类的语义,导致在以后的迭代中出现累积性错误创新思路利用自动生成的类名来解决语义漂移问题。实验结论在两个数据集上的实验表明,我们的框架产
2022-02-08 02:10:52
643
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅