自然语言处理
文章平均质量分 96
十里清风
星光不问赶路人,岁月不负有心人
展开
-
Layout系列模型(LayoutLM,LayoutLMv2,LayoutXLM)
Layout LM联合建模文档的layout信息和text信息,预训练文档理解模型。模型架构使用BERT作为backbone,加入2-D绝对位置信息,图像信息,分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。 2-D Position Embedding. 将文档页面视为坐标系统(左上为原点), 使用2张embedding table构造4种位置嵌入,横纵轴各使用1张嵌入表; Image Embedding. 将文档页面图像分割成小图片序列,基于Faster R-CNN建原创 2022-05-29 17:57:04 · 6803 阅读 · 0 评论 -
FLAT:使用Transformer引入词汇信息增强中文NER(Chinese NER Using Flat-Lattice Transformer)
文章目录1 引言2 背景3 模型3.1 转换格子为扁平结构3.2 范围的相对位置编码4 实验4.1 实验设置4.2 整体性能4.3 全连接结构的优势4.4 FLAT效率4.5 FLAT的提升4.6 BERT兼容性【论文链接】:FLAT: Chinese NER Using Flat-Lattice Transformer近年来,已证明引入词汇信息的字词格子结构能够有效提升中文NER任务,然而,格子结构复杂、多变,多数现有的基于格子结构的模型难以利用多GPU并行计算,并且推理速度较慢。本文提出FLAT翻译 2021-01-06 02:20:57 · 2600 阅读 · 0 评论 -
AxCell: 从机器学习论文中自动抽取结果(Automatic Extraction of Results from Machine Learning Papers)
随着论文数量爆炸式增长,追踪机器学习领域的进展变得日益繁重。本文提出一种从论文中抽取研究成果的自动机器学习流水线 - AXCELL。AXCELL使用一些新的组件,其中包括表格分割子任务:学习相关结构知识以帮助抽取。与现有方法相比,我们的方法显著地提高了“结果抽取”的SOTA。我们还发布了一个结构化、标注的数据集,用于“结果抽取”的训练,以及一个用于评估该任务模型性能的验证集。最后,我们展示了我们的方法在产品中以半自动抽取研究成果的可行性,结果表明我们的改进使得该任务第一次可行。代码可从GitHub中获取原创 2020-12-06 02:15:42 · 1887 阅读 · 0 评论 -
Facebook ConvS2S:Convolutional Sequence to Sequence Learning
文章目录介绍RNN Seq2Seq卷积架构位置嵌入(Position Embeddings)卷积块结构(Convolutional Block Structure)多步注意力(Multi-step Attention)标注化策略(Normalization Strategy)[Reference]1. Convolutional Sequence to Sequence Learning介绍卷积很少用于序列建模。卷积建模固定大小/窗口的上下文表示,而深层卷积网络可以很容易建模较长的有效上下文表示。原创 2020-11-21 21:25:58 · 917 阅读 · 0 评论 -
PGN: 指针生成网络(Get To The Point: Summarization with Pointer-Generator Networks)
seq2seq模型可用于文本摘要(并非简单地选择、重排原始文本的段落),然后这些模型有两个缺点:不易关注真实细节,以及倾向于生成重复文本。本文提出一种新颖的架构:使用两种方式增强标准的seq2seq注意力模型。第一,使用混合指针生成网络,利用指针从原文精确地复制单词,同时保留生成器产生新单词的能力。第二,使用覆盖机制跟踪哪些单词已经被摘取,避免生成重复文本。引言文本摘要任务旨在输出仅包含原文主要信息的压缩文本,大致具有两种方法:抽取式和摘要式。抽取式方法直接抽取段落原文,而摘要式方法可能生成一些原文中原创 2020-10-20 20:55:46 · 3391 阅读 · 0 评论 -
ALBERT: 自监督语言表示的轻量级BERT
文章目录引言词向量因式分解(Factorized embedding parameterization)跨层参数共享(Cross-layer parameter sharing)内部句子一致性损失(Inter-sentence coherence loss)【Reference】引言预训练模型使得一些缺乏训练数据的下游任务表现良好,大力出奇迹,大型网络是获得SOTA性能的关键,但随着模型大小的增加,内存占用和训练时间都会增加。那么是否有比大型模型更简单、性能更好的模型?ALBERT使用两种缩减参数原创 2020-08-22 17:14:29 · 1637 阅读 · 0 评论 -
NTT Masque: 多风格生成式阅读理解(Multi-Style Generative Reading Comprehension)
RC研究领域多使用范围抽取式方法,生成式方法面临开放领域训练数据匮乏。本文提出多风格问答阅读理解摘要模型,从问句和多个段落生成指定风格的summary作为答案。多源摘要: 使用指针生成器机制从问句、多段落中生成多样化风格的答案,并扩展至Transformer,允许生不成器词表,或从问句、段落原文中复制信息生成答案;多风格学习: 控制答案输出样式,满足RC所有形式输出,引入风格化的人工token扩展指针生成器为条件解码器,给定风格下,每一步解码控制三个分布占解码输出的权重;问题形式化给定含JJJ个原创 2020-08-21 16:39:10 · 1299 阅读 · 0 评论 -
微软R-NET: 端到端、抽取式机器阅读理解问答模型
文章目录R-NET结构问句和段落编码Reference:1. R-NET: Machine Reading Comprehension with Self-Matching NetworksR-NET是端到端阅读理解QA神经网络模型,目的是从段落中抽取问句对应的答案区间。使用门控注意力RNNs,编码具有问句感知的段落词向量表示,通过自匹配注意力改善段落词向量表示。R-NET结构R-Net 共分为四部分:问句和段落编码(Question and Passage Encoder)、门控注意力循环网原创 2020-08-20 01:03:26 · 1609 阅读 · 0 评论 -
XLNet: 通用自回归预训练语言理解(Generalized Autoregressive Pretraining for Language Understanding)
文章目录引言提出的方法背景引言AR模型以前向或后向的方式建模语言模型p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t)p(\bm x)=\prod\nolimits_{t=1}^Tp(x_{t}|\bm x_{<t})\quad or\quad p(\bm x)=\prod\nolimits_{t=T}^1p(x_{t}|\bm x_{>t})p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t原创 2020-08-11 23:18:51 · 986 阅读 · 0 评论 -
Transformer-XL: 非固定长度上下文的注意力语言模型(Attentive Language Models Beyond a Fixed-Length Context)
Transformers可潜在地学习长期依赖关系,但受到固定上下文的限制,当待处理的文本长度超过固定长度时:训练阶段,需将输入文本分割成不同分段,不同分段独立训练,由于分段未考虑语义边界,可能造成模型缺乏上下文信息预测分段中的前几个字符,产生上下文碎片问题;预测阶段,每次移动一个输入单元,引入大量重复计算,预测效率低;Transformer-XL基于 循环分段机制 和 相对位置编码,克服vanilla Transformers的固定上下文长度的缺陷,并能够解决分段造成的上下文碎片问题。Transf原创 2020-08-10 14:53:43 · 606 阅读 · 0 评论 -
【论文解读】Deep Biaffine Attention for Neural Dependency Parsing(基于深层双仿射注意力的神经网络依存解析)
文章目录代码实现:github参考文献:https://www.hankcs.com/nlp/parsing/deep-biaffine-attention-for-neural-dependency-parsing.html原创 2020-06-22 09:26:11 · 7678 阅读 · 2 评论 -
【论文解读】A Fast and Accurate Dependency Parser using Neural Networks(基于神经网络的高性能依存句法解析器)
文章目录Transition-based Dependency ParsingNeural Network Based Parser模型输入隐藏激活函数输出层模型训练Reference代码实现:基于tensorflow 2.2实现,代码见github。Transition-based Dependency Parsing从初始状态开始,每步贪婪预测下一步的动作(多分类取分数/概率最高的类别),如转移、生成左弧或右弧,直到所有单词的预测完毕(stack仅含根节点,buffer为空)。基于贪婪的预测结原创 2020-06-19 16:38:09 · 1557 阅读 · 0 评论 -
关系抽取之分段卷积神经网络(PCNN)
远程监督关系抽取Piecewise Convolutional Neural Networks (PCNNs) with Multi-instance Learning远程监督关系抽取的难题之一是训练集问题,一般使用远程监督解决,即假设若知识库中两个实体具有某种关系,则任何包含这两个实体的句子都具有这种关系。下图为使用远程监督自动标注数据的实例,其中第一句标注正确,而第二句标注错误。远程监督是快速获取关系抽取训练集的有效方法,但其有两个缺点:远程监督假设过于强烈,易标注错误,引入噪声数据;原创 2020-06-08 00:29:59 · 8816 阅读 · 5 评论 -
【论文解读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
前言BERT: Bidirectional Encoder Representations from Transformers.通过预训练的语言模型可有效地提升多数下游任务,处理下游任务(迁移学习)的方法大致分为两种:feature-based,such as ELMo,uses task-specific architectures that include the pre-trai...原创 2020-05-08 01:54:01 · 2594 阅读 · 0 评论 -
自然语言处理:序列标注(BiLSTM-CRF)
文章目录Tagging SchemeBidirectional LSTM NetworksWhy use the CRF Networks?CRF NetworksBiLSTM-CRF networksEmission scoreTransition scoreDecodingLoss functionBi-LSTM-CRF NetworksReference:1. Bidirectional...原创 2020-04-30 21:33:47 · 1781 阅读 · 0 评论 -
自然语言处理:关键词提取(TF-IDF、Textrank)
文章目录TF-IDFModelSmoothingRegularizationImplemetationPageRankAlgrithm sourceModelTerminal nodeTrap NodeSolving IdeaDeficiencyTextRankTF-IDF词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF),基...原创 2020-04-29 16:12:18 · 2300 阅读 · 1 评论 -
自然语言处理:依存句法解析(Dependency Parsing)
文章目录Phrase Structure GrammarsDependency StructureDependency Grammar and Dependency StructureGreed Transition-Based ParsingWhy train a neural dependency parser?What kind of structures do human languag...原创 2020-04-29 16:00:07 · 8779 阅读 · 1 评论 -
机器翻译模型(MT、NMT、Seq2Seq with Attention)
seq2seq attention原创 2020-04-29 15:53:11 · 2088 阅读 · 0 评论 -
语言模型和循环神经网络(LM、RNNs)
文章目录Language ModelN-Gram Language ModelProblems with n-gram language modelGenerating text with n-gram language modelRecurrent Neural Networks Language ModelWindow-based neural networks modelA RNN Lang...原创 2020-04-29 15:03:52 · 973 阅读 · 0 评论