NLP
CCChenhao997
程序员
个人网站 http://chenhao.space
展开
-
Multi-grained Attention Network for Aspect-LevelSentiment Classification 阅读笔记
原文链接:http://chenhao.space/post/eccc920c.htmlMulti-grained Attention Network for Aspect-Level Sentiment Classification面向方面级情感分类的多粒度注意力网络来源:2018 EMNLP https://www.aclweb.org/anthology/D18-1380/ 北京大学...原创 2019-11-30 20:03:49 · 1482 阅读 · 3 评论 -
DATN阅读笔记
原文链接: http://chenhao.space/post/c1174f04.htmlImproving Multi-label Emotion Classification via Sentiment Classification with Dual Attention Transfer Network基于双重注意力迁移网络的情感分类改进多标签情感分类来源: 2018 EMNLP htt...原创 2019-11-30 20:02:38 · 831 阅读 · 0 评论 -
SentiLR:Linguistic Knowledge Enhanced Language Representation for Sentiment Analysis 论文阅读笔记
SentiLR: Linguistic Knowledge Enhanced Language Representation for Sentiment AnalysisSentiLR:用于情感分析的语言知识增强的语言表示来源:https://arxiv.org/abs/1911.02493 清华团队Introduction虽然当前的预训练语言模型已经取得了很好的性能,但是它们的预训练任务...原创 2019-11-23 19:09:26 · 1267 阅读 · 0 评论 -
ELMO/GPT/BERT/ERNIE
原文链接: http://chenhao.space/post/af0f9530.htmlWord Embedding我们希望给不同意思的token也要给它们不同的embedding。比如说这里的“bank”,过去我们的做法是,作为“银行”的意思,就给它一个embedding,作为“河岸”的意思,也给它一个embedding。但是人类的语言是很奇妙的,如 The hostpital has...原创 2019-11-16 15:23:03 · 587 阅读 · 0 评论 -
ELMO/BERT/ERNIE/GPT简单概述
原文链接: http://chenhao.space/post/3b65b065.htmlEmbedding我们希望给不同意思的token也要给它们不同的embedding。比如说这里的“bank”,过去我们的做法是,作为“银行”的意思,就给它一个embedding,作为“河岸”的意思,也给它一个embedding。但是人类的语言是很奇妙的,如 The hostpital has its ...原创 2019-11-11 10:18:35 · 840 阅读 · 5 评论 -
Aspect Based Sentiment Analysis with Gated Convolutional Networks 阅读笔记
原文链接 http://chenhao.space/post/b215757d.html论文题目:Aspect Based Sentiment Analysis with Gated Convolutional Networks来源:ACL 2018 https://www.aclweb.org/anthology/P18-1234/作者:Wei Xue and Tao Li, School...原创 2019-11-09 20:56:28 · 599 阅读 · 0 评论 -
Recurrent Attention Network on Memory for Aspect Sentiment 阅读笔记
原文链接 http://chenhao.space/post/10f4e02b.html论文题目:Recurrent Attention Network on Memory for Aspect Sentiment Analysis来源:ACL 2017 https://www.aclweb.org/anthology/D17-1047/作者:Peng Chen, Zhongqian Su...原创 2019-11-09 20:55:20 · 618 阅读 · 0 评论 -
Word2Vec-VS-fastText
原文链接: http://chenhao.space/post/89252767.htmlword2vecSkip-Gram跳字模型其实就是利用中心词预测上下文词这种方法来训练词向量。我们会得到跳字模型其实就是利用中心词预测上下文词这种方法来训练词向量。我们会得到两个向量,第一个是中心词向量,另一个是上下文词的向量。而我们是用跳字模型得到的中心词向量作为词的表征向量。其中矩阵 WWW ...原创 2019-10-28 18:09:00 · 480 阅读 · 0 评论 -
Recurrent Convolutional Neural Networks for Text Classification 阅读笔记
原文链接: http://chenhao.space/post/93d3104e.htmlIntroduction题目:Recurrent Convolutional Neural Networks for Text Classification来源:AAAI2015本文提出了一种将RNN结构和CNN结构结合起来的一种模型,能够更好的获取语义信息。利用RNN循环结构捕获上下文信息,利用C...原创 2019-10-25 23:58:42 · 465 阅读 · 0 评论 -
Convolutional Neural Networks for Sentence Classification 阅读笔记
原文链接: http://chenhao.space/post/b62604a1.htmlIntroduction题目:Convolutional Neural Networks for Sentence Classification来源:EMNLP 2014本论文提出将CNN用在NLP的句子分类任务上,进行了一系列的对比实验。Model假设一个句子的长度为n,可以表示为(词向量x...原创 2019-10-25 23:57:37 · 309 阅读 · 0 评论 -
Attention-Is-All-You-Need论文笔记
原文链接: http://chenhao.space/post/2a42add6.htmlTransformer以机器翻译为例:其中 Add & Norm 层的意思是:将input到Multi-Head Attention中的aaa,与Multi-Head Attention output的bbb进行Add操作,得到b′b'b′,再将b′b'b′进行Layer Normali...原创 2019-10-19 10:14:18 · 227 阅读 · 0 评论 -
A Structured Self-attentive Sentence Embedding 论文笔记
笔记原文地址:http://chenhao.space/post/e76a9f9c.html摘要论文地址:https://arxiv.org/abs/1703.03130本篇论文提出了一种基于自注意力机制(自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性)的sentence embedding。sentence embedding模型用 2-D m...原创 2019-10-10 10:51:33 · 421 阅读 · 0 评论 -
NLP基础介绍
原文链接:http://chenhao.space/post/c939a57a.html定义自然语言处理是一门融语言学、计算机科学、人工智能于一体的科学,解决的是”让机器可以理解自然语言“。 发展阶段:1950年代,基于规则的方式;1970年代,统计语言学;2003年,神经网络。 主要研究方向:词法短语:分词,词性标注,命名实体识别,组块分析,Term权...原创 2019-10-02 10:08:39 · 415 阅读 · 0 评论 -
语言模型笔记2-Word2Vec词向量
原文链接: http://chenhao.space/post/2c0d6d8e.html语言模型语言模型:预测每个句子在语言中出现的概率。引出举例:机器翻译 价格高P(high price)>P(large price)P(high \, price) > P(large \, price)P(highprice)>P(largeprice)举例:我 今天 ...原创 2019-09-23 18:58:22 · 293 阅读 · 0 评论 -
单词拼写纠错
原文链接: http://chenhao.space/post/409250ae.html所需数据集:spell-errors.txttestdata.txtvocab.txt词典库# 词典库vocab = set([line.rstrip() for line in open('vocab.txt')]) # 用set效率高一些(时间复杂度)需要生成所有候选集合# 需要生成...原创 2019-09-18 21:18:36 · 639 阅读 · 0 评论 -
语言模型笔记1-简单介绍
原文链接:http://chenhao.space/post/3423f471.html语言模型是用来计算一个句子的概率的模型,通俗的说,语言模型是用来判断一句话从语法上是否通顺。如下: 通过概率计算得出正确的句子顺序: N-gram(n元语言模型)Unigram(一元语言模型)当n=1时,称为Unigram,一元语言模型假设词语之间是相互独立的。 缺点:不...原创 2019-09-14 23:43:57 · 1100 阅读 · 0 评论 -
文本表示及相似度计算
原文链接: http://chenhao.space/post/7875b6ba.html文本表示Word RepresentationOne-hot编码表示形式。 Sentence Representationboolean count 在某些文本中,某个单词并不是出现的越多就越重要,也并不是出现的越少就越不重要。TF-IDF Representation...原创 2019-09-14 16:09:24 · 309 阅读 · 0 评论 -
jieba分词的简单使用
原文链接:http://chenhao.space/post/20300dce.htmljieba的三种分词模式Jieba中文分词包含三种模式,下面来介绍一下这三种模式的不同:精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义问题;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分...原创 2019-09-13 22:03:28 · 2172 阅读 · 1 评论 -
文本情感分析综述[哈工大2010]笔记
原文链接: http://chenhao.space/post/f6969e4.html引言 文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次;按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的...原创 2019-09-09 22:24:07 · 2375 阅读 · 0 评论