论文阅读
文章平均质量分 68
SYSU_BOND
这个作者很懒,什么都没留下…
展开
-
基于卷积注意力神经网络的命名实体识别(CAN-NER)
CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition(NAACL-HLT 2019)原创 2021-05-29 00:42:11 · 1765 阅读 · 3 评论 -
带自注意力的命名实体识别迁移学习
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism原创 2021-05-28 09:34:23 · 743 阅读 · 0 评论 -
FLAT: Chinese NER Using Flat-Lattice Transformer【ACL2020】
结合TENER和Lattice LSTM的改进工作:改LSTM为Transformer,这样匹配词就可以通过在Transformer的Self-Attention的时候引入,并通过调整position encoding用以计算Attention时作单词对齐 模型架构:单层Transformer,改进Self-Attention部分以适配词信息 1. 每个token表示为emb + pos【begin、end】2. Self-Attention计算,以词w_i和词w_j间Atten..原创 2021-05-28 00:48:31 · 476 阅读 · 0 评论 -
TENER: Adapting Transformer Encoder for Named Entity Recogni
这篇文章应该是第一篇使用Transformer取得比较好效果的论文,分析了Transformer的特性,同时提出两种改进: 一个是position embedding只体现了距离,但没有方向性,NER中方向性是非常重要的,故而使用相对距离的方法表示 【基于直觉】对于NER任务,可能几个上下文关键词就可以帮助判断,故而应该增强这些关键词的作用,而原始Transformer会有scale过程削弱这些词作用,故而使用un-scaled、sharp的Attention,增强...原创 2021-05-28 00:37:58 · 381 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM【ACL2018】
1. 提出先验词的网格结构:2. 基于上述网格结构,设计Lattice-LSTM,用于融合先验词信息:在实现细节上,以字粒度LSTM模型未基础,融入单词网格信息:单词如“南京市”,表示为向量,由预训练词向量如Word2Vec表示 并通过一个与LSTM Cell相同的运算,得到单词Cell State,以及一个类似于Input Gate的结果【注意这里使用是词向量,不是字向量】用于跟原本LSTM中的Input Gate去计算权值【word level 没有Output Gate】:原创 2021-05-28 00:16:46 · 266 阅读 · 0 评论 -
LSTM的加速算法:QRNN和SRU
LSTM介绍及加速原理LSTM的公式可以表示如下所示,其中分别表示输入门,输出门,遗忘门。对LSTM还不熟悉的同学可以先阅读:理解LSTM网络或者直接阅读Christopher Olah 的原博文:Understanding LSTM Networks从上述公式中,我们先来分析公式中各个部分的计算复杂度,记和的大小为,则大小也是,W的大小为:矩阵乘法【即式中标红部分】:次乘法 表...原创 2019-09-22 21:15:24 · 7221 阅读 · 1 评论 -
层次Softmax相关论文整理
Softmax函数是逻辑函数的一种推广,广泛应用于神经网络的多分类问题中,然而其计算复杂度与类别大小呈线性关系,在应用于语言模型、机器翻译时会带来高额的计算量,故而不少研究尝试寻找其高效的近似方法,层次Softmax便是其中一种常用的方法,本小节中将介绍层次Softmax中的一些代表模型。1992年,Brown等人在论文《Class-based n-gram models of natural...原创 2019-09-14 17:31:44 · 4776 阅读 · 0 评论 -
论文阅读:Long Short-Term Memory Neural Networks for Chinese Word Segmentation【2015】
意义:首次使用LSTM用于中文分词【之前的方法大多基于局部上下文对标注进行预测,并未能很好使用长距离信息,详情看后续阐述】 调研了多种在LSTM中的dropout的应用 【现在去看感觉这篇文章工作意义不大】Previous Methods前馈神经网络分词:把上下文进行concate后,经由线性分类器标注模型LSTM-1:使用单层LSTM LSTM-2:使用双层LS...原创 2019-09-09 00:27:35 · 978 阅读 · 0 评论 -
论文阅读:Deep Neural Networks with Multitask Learning(多任务模型应用到自然语言处理)
文章摘要文章讲述一个使用基于单一卷积神经网络的多任务学习模型,可以给一个句子输出预测一系列语法或语义上的输出:如词性标注、命名实体识别、语言角色,语义相近的单词,自然语言模型(句子有意义的概率)。所有这些任务上使用一个网络实现权重共享,即一个多任务学习实例。除了语言模型,所有的任务都使用打标签的数据,这样的组合代表了一个通过共享任务的进行半监督学习形式【语言模型是无监督的,而其他任务有监督】。文中...原创 2018-04-02 13:08:18 · 3150 阅读 · 2 评论 -
论文阅读:神经网络的有趣性质(Intriguing Properties Of Neural Network)
这篇文章提出对抗样本(Adversarial example)这个坑。所谓对抗样本,就是在原样本上引入细微扰动,就能使得模型出现误分类的情况,这也是对抗生成网络的启发思想深度学习自诩为特征学习的模型,但是这特征由数据出发进行自主的学习,故而其学习到的特征并不一定就是我们所希望的特征,有一点可以确定的是,其对数据的理解与人的理解有着很大的差异,故而,其学习到的特征,也极有可能并非是人理解事物的特征。...原创 2018-04-02 12:16:22 · 3553 阅读 · 0 评论 -
论文阅读:Explaining and Harnessing Adversarial Examples(解释分析对抗样本)
论文摘要AdversarialExample的延伸,表明不仅仅只有NeuralNetwork有这种现象,在此文章之前对该问题的解释集中在nonlinearity和overfitting上。但是本文提出这些算法对于对抗样本脆弱性的主要原因正是在于它们线性的本质。并通过定量分析来解释Adversarial Example在不同架构不同数据集能够work的原因。并以此提出一种快速产生Adversaria...原创 2018-04-02 11:23:42 · 6819 阅读 · 0 评论 -
读论文有感:A Sample But Tough-To-Beat Baseline For Sentence Embedding
该算法有着一定的意义,即通过分析,对Word Embeddings进行加权平均,得到比单纯平均或以TF-IDF为权值的平均向量更好的结果,因计算简单,如作者所述,作为一个更好的Baseline是很好的选择不过该论文的一些说法有点言过其实,甚至进行了一点小tricks,比如说比supervised 的LSTM有着更好的效果这一说法,有着一定的争议,因为Sentence Embedding实则也是一种...原创 2018-04-02 10:44:12 · 1975 阅读 · 0 评论