![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLPer阅读笔记
NLP papers的阅读笔记
Nstar-LDS
n品炼丹师
展开
-
LINE: Large-scale Information Network Embedding阅读笔记
文章名为LINE:大规模信息网络特征表示,发表于WWW 2015,一作单位微软亚研院。这篇文章提出的LINE可适用于百万级边的大型网络,不基于random walk而是通过网络结构(1阶相似度与2阶相似度)设计优化目标函数,通过SGD来学习得到node embedding,是一篇开拓性的工作。简单说就是两点之间边的真实权重,和预测权重之间的差距,通过KL散度来度量,得到目标函数,然后进行优化学习。研究背景图神经网络的研究背景都差不多,传统的算法对邻接矩阵进行分解,学到的是每一个node的特征向量(背原创 2020-07-05 18:21:59 · 512 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM阅读笔记
这篇论文发表于ACL 2018,研究单位是新加坡科技大学。研究背景中文命名实体识别长久存在挑战的就是命名实体边界问题,还有粗粒度造成的识别问题,以及比词性标注更具混淆性的类别分类。举几个反映实际问题的例子:中华人民共和国中央人民政府(复合)《白鹿原》改编自同名小说《白鹿原》(类别混淆)《莫斯科的夜晚》(嵌套+类别混淆)中国工商银行,工商银行,工行(简称)上海博物馆(地名,也可以是机构名)OOV问题(命名实体无穷无尽,至今NER模型泛化能力都远低于预期)新冠,秀儿,冲鸭,舔狗,我伙呆(新原创 2020-06-10 22:10:26 · 510 阅读 · 0 评论 -
Modeling Relational Data with GCN阅读笔记
文章目录基础知识提要欧式空间非欧数据图结构知识图谱GCN模型部分基分解块对角分解总结应用基础知识提要欧式空间欧几里得空间中的数据最显著的特征就是有规则的空间结构,比如图片是规则的正方形栅格,语音是规则的一维序列,文本也是规则的序列,这些数据结构能够用一维、二维的矩阵表示。非欧数据有很多数据不具备规则的空间结构,这些数据就称为非欧数据。比如推荐系统、电子交易、分子结构或者知识图谱。这些图谱结构每个节点连接都不尽相同,有的节点有三个连接,有的节点有两个连接,是不规则的数据结构。表示非欧数据的方式之一原创 2020-06-06 17:44:44 · 475 阅读 · 0 评论 -
ARNOR阅读笔记
论文名称《Attention Regularization based Noise Reduction for Distant Supervision Relation Classification》基于注意力正则化的ARNOR框架文章目录弱监督关系抽取基于多示例学习的方法基于Bootstrapping的方法弱监督关系抽取弱监督学习是有监督学习和无监督学习的折中,训练数据只有部分标注有噪声...原创 2020-05-15 20:51:45 · 492 阅读 · 0 评论 -
BLEU score 原理与解释
BLEU代表bilingual evaluation understudy,即双语评估替补。所谓替补就是代替人类来评估机器翻译的每一个输出结果。例如法语翻译成英语的任务中,源语句是:Le chat est sur le tapis而翻译成英语的形式多种多样,例如:reference1:The cat is on the mat.reference2:There is a cat on t...原创 2020-05-02 22:15:22 · 4125 阅读 · 1 评论 -
Node2Vec图神经网络论文阅读笔记
斯坦福图神经网络数据集snap是Jure等人不间断收集的网络数据集,极大地推动了社交网络领域的发展。node2vec能探索领域的多样性原创 2020-04-28 16:56:53 · 674 阅读 · 0 评论 -
ERNIE:Enhanced Language Representation with Informative Entities阅读笔记
ERNIE主要是基于bert进行改造的,ERNIE这篇文章argue说之前的预训练模型还有不足之处,忽略了将知识信息整合到语言理解中,并采用了下图证明了可优化的地方那如果想要将外部知识组合到语言表征模型中,我们就会遇到两大主要挑战结构化的知识编码:对给定的文本,如何高效地抽取并编码对应的知识图谱是非常重要的,这些知识图谱需要能直接用于语言模型异质信息融合:语言表征的预训练过程和知识表征的...原创 2020-04-23 17:07:27 · 257 阅读 · 0 评论 -
NLP中的关系抽取方法归纳
本文是阅读完娄杰所写NLP中的实体关系抽取方法总结一文之后,摘录其中部分段落,结合自己对信息抽取工作的理解,作出的一些补充。前言说到信息抽取,不得不提的就是实体关系抽取(Entity and Relation Extraction),实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务,分为两个子任务:命名实体识别(NER)和关系抽取(RE...原创 2020-04-03 14:40:57 · 5581 阅读 · 2 评论 -
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记
论文原文End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF论文信息ACL2016论文解读Zhang & Hytn Chen更新时间2020-03-06命名实体识别简介命名实体识别的目的是识别语料中人名、地名、组织机构名等命名实体。而命名实体是命名实体识别的研究主体,一般包括...原创 2020-03-22 15:45:51 · 1732 阅读 · 0 评论 -
关系抽取数据集评价方法scorer.py解读
真实关系的列表存在key中,预测关系的列表存在prediction中,从dev数据集中获取样本,以tacred为例,包含两万多条记录。以真实label存储,不是one-hot。在该评价方法中,也有TP,FP,TN,FN的概念,positive就代表了实体之间存在关系的样本,negative则代表不存在关系的样本。def score(key, prediction, verbose=False)...原创 2020-03-18 13:24:18 · 1410 阅读 · 0 评论 -
Fasttext (Bag of Tricks for Efficient Text Classification) 阅读笔记
论文原文Bag of Tricks for Efficient Text Classification论文信息EACL2017论文解读Hytn Chen更新时间2020-02-23文本分类相关方法用作文本分类的卷积神经网络,有多个使用流程示意图如下1维卷积堆卷积(Goldberg Book)延迟CNN(Kalchbrenner et al. ...原创 2020-03-02 21:38:34 · 484 阅读 · 0 评论 -
A Convolutional Neural Network for Modelling Sentences (DCNN) 阅读笔记
论文原文A Convolutional Neural Network for Modelling Sentences论文信息ACL2014论文解读Shi & Hytn Chen更新时间2020-02-20句子建模发展简介句子分布式表示:将一句话用固定长度的向量进行表示,向量往往高维,因此也可看作将一句话嵌入进高维空间中去,也叫做句嵌入。而词嵌入...原创 2020-03-02 17:00:19 · 1184 阅读 · 0 评论 -
TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记
论文原文Convolutional Neural Networks for Sentence Classification论文信息EMNLP2014论文解读Zhenyu Zhang & Hytn Chen更新时间2020-02-19文本分类简介发展历史历经基于规则的文本分类,基于特征的文本分类以及基于神经网络的文本分类三大阶段。基于规则的文本...原创 2020-02-19 22:08:57 · 214 阅读 · 0 评论 -
Skip-Thought Vectors阅读笔记
论文原文Skip-Thought Vectors论文信息NIPS2015个人解读Wang & Hytn Chen更新时间2020-02-17句子表示简介句子分布式表示:将一句话用固定长度的向量进行表示,向量往往高维,因此也可看作将一句话嵌入进高维空间中去,也叫做句嵌入,让句子的语义更准确地编码到有限维的向量中,在向量子空间中保持句子的语义关系,...原创 2020-02-18 17:09:00 · 1051 阅读 · 0 评论 -
Neural Machine Translation by Jointly Learning to Align and Translate阅读笔记
论文原文Neural Machine Translation by Jointly Learning to Align and Translate论文信息ICLR2015个人解读Wang Anna & Hytn Chen更新时间2020-02-13机器翻译简介1980,基于规则的翻译,大致流程就是输入,词性分析,词典查询,语序调整,输出。19...原创 2020-02-17 16:52:49 · 385 阅读 · 0 评论 -
Distributed Representations of Sentences and Documents阅读笔记
论文原文Distributed Representations of Sentences and Documents论文信息ICML2014论文解读Hytn Chen & Pvop更新时间2020-02-03句子分布式表示简介句子分布式表示:将一句话用固定长度的向量进行表示,向量往往高维,因此也可看作将一句话嵌入进高维空间中去,也叫做句嵌入。...原创 2020-02-17 16:47:34 · 627 阅读 · 1 评论 -
GloVe: Global Vectors for Word Representation 阅读笔记
论文原文GloVe: Global Vectors for Word Representation论文信息EMNLP2014个人解读Hytn Chen更新时间2020-02-15词表示简介词表示已成为所有基于深度学习的自然语言处理系统的重要组成部分,它们在固定长度的向量中编码单词,从而大幅提高神经网络处理文本数据的能力。有用独热表示(离散表示)来表示词...原创 2020-02-17 16:39:34 · 528 阅读 · 0 评论