NLP
I am zzxn
https://github.com/zzxn
展开
-
Seq2Seq模型中的标签
seq2seq模型一般由一个编码器和一个解码器组成。编码器将token的embedding序列编码成分布式表示(可能是向量序列或者一两个单独的语义向量),然后解码器根据编码器的结果生成出一个向量的序列。解码器生成的向量序列根据下游任务的不同有不同的利用方式。**在使用seq2seq模型时,由于一些原因我们需要添加一些特殊的标签,或者叫dummy token,用来表示序列开始、序列结束、句子/段落的开始结束等等。**下面举例说明。假设某seq2seq模型被用作英中翻译,且我们的样本是这样的:x: "I原创 2020-10-30 21:01:51 · 710 阅读 · 0 评论 -
Rouge安装
Rouge的安装向来很麻烦,这里给出在Ubuntu 16.04+和Windows 10两个系统下安装Rouge 1.5.5的简明步骤。UbuntuUbuntu一般自带perl,bash输入perl -v检查perl版本输入cpan -v检查cpan(perl的包管理器)的版本,初次使用会提示需要配置,一路Enter即可使用sudo cpan install XML::DOM安装必须的XML解析包下载ROUGE-1.5.5,该资源在网上随处可见,与操作系统无关,下载后运行目录下的perl脚本run原创 2020-10-30 20:53:59 · 652 阅读 · 0 评论 -
【论文笔记】Heterogeneous Graph Neural Networks for Extractive Document Summarization
文章使用异质图建模句子之间的关系,并将其用于抽取式摘要,取得了优于所有对比模型的效果(本文模型和对比模型均没有使用预训练语言模型,如BERT)。图的结构图中包含两类节点:词节点和句节点句节点与其中包含的词的节点相连接只有词节点和句节点之间的连接,同类节点之间不会连接是一个二分图(Bipartite Graph)节点初始化词节点300维的EmbeddingVocabulary大小为50000使用GloVe初始化Embedding删去停用词和标点符号删去10%的在整个数据集.原创 2020-09-14 19:25:18 · 747 阅读 · 1 评论