子空间关键词相似度
提取论文的子空间并在子空间上对相似度进行计算。
lw03060402
这个作者很懒,什么都没留下…
展开
-
子空间——bert和xlnet对关键词embedding
bert和xlnet对关键词embeddingbert的原理我在第一篇论文介绍了,不赘述下面写一下我对bert embedding 和XLNet embedding的理解与两者之间的不同bert embedding可选择的预,L表示的是transformer的层数,H表示输出的维度,A表示mutil-head attention的个数训练模型,每一层transformer的输出值,理论上来说都可以作为句向量,但是到底应该取哪一层呢,根据hanxiao大神的实验数据,最佳结果是取倒数第二层,最后一层的原创 2020-07-01 15:04:21 · 413 阅读 · 0 评论 -
子空间——使用pke包提取关键词遇到的依赖问题
使用pke包提取关键词遇到的依赖问题按照pke官方文档说明使用pke需要以下几个依赖但是因为是外网资源下载不下俩老是报错,去官网直接下载:https://github.com/nltk/nltk_data1.放入报错提示的任一文件夹下就OK,oh,记得这里将 packages 重命名成 nltk_data。2.找到 nltk-data 中 punkt 所在目录,这里要进入 punkt.zip 将 punkt 文件拖出来,与 punkt.zip 同级,然后 punkt.zip 就可以删掉啦,于是才原创 2020-07-01 15:01:51 · 396 阅读 · 0 评论 -
子空间——关键词的相似度计算
关键词的相似度计算关键词的相似度刚开始采用的是杰卡德相似度,但是会出现非常多0的情况,这个情况不太利于区分关键词之间的相似度。所以进行改进变为向量化关键词后算embedding的余弦相似度。ELMO原理尝试ELMO模型进行单词向量化ELMO模型的基本组成单元为lstm,输入门、遗忘门、输出门等计算公式如下图ELMO是双向lstm语言模型,第一个是使用了多层LSTM,第二个是增加了后向语言模型,不仅可以前文预测后文,也增加了后文预测前文的内容。elmo使用的双向lstm语言模型,论文中简称b原创 2020-07-01 14:59:32 · 424 阅读 · 0 评论 -
子空间——textrank算法的关键词提取
textrank算法的关键词提取textrank虽然没有用在任务中提取关键词,但是还是做了来对比一下其他两个关键词算法的效果,在这里也简单说一下。思想1.如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要2.一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高3.通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即原创 2020-07-01 14:57:49 · 237 阅读 · 0 评论 -
子空间——WINGNUS算法提取关键词
WINGNUS算法提取关键词WINGNUS算法提取关键词WINGNUS算法提取关键词WINGNUS我觉得可以视为kea算法的改进版本,他研究了语言逻辑,不止关注了文章全局信息也关注了局部重要的信息WINGNUS算法论文写到经过统计发现一般句子比较重要的部分都出现在句首,标题等地方,所以不使用整个文档文本作为输入,而是从完整到最小的不同层次上缩减了输入文本,注重重要的地方。1.和kea讲到的一样首先根据规则选取候选词2.提取关键词特征,在tf-idf特征的基础上添加了单词偏移,字体属性,单词短语长原创 2020-07-01 14:51:44 · 230 阅读 · 0 评论 -
子空间——kea算法提取关键词
kea算法提取关键词kea算法提取关键词kea算法提取关键词上一篇文章讲到基于bert的关键词提取,关键字出来的太少,需要一些其他方法增加关键词,我首先选择了kea算法kea算法Kea使用词法方法识别候选关键词,为每个候选关键词计算特征值,并使用机器学习算法预测哪些候选关键词是好的关键词。1.首先基于一定的规则选出候选关键词,作者在文章中提出三个规则:(1) Candidate phrases are limited to a certain maximum length (usually th原创 2020-07-01 14:48:01 · 748 阅读 · 0 评论 -
子空间——面向子空间基于规则嵌入的论文相似性比较
面向子空间基于规则嵌入的论文相似性比较-ysl创新实训个人过程记录我负责的部分是论文摘要基于语义的子空间关键词提取并且比较关键词相似度,采用bertfortokenclassification进行关键词提取。简单介绍一下bert首先需要知道transformer,和大多数seq2seq模型一样,transformer的结构也是由encoder和decoder组成。不一样的是多头注意力机制扩展了模型专注于不同位置的能力,给出了注意力层的多个“表示子空间”。输入向量添加了位置编码,变为基于时间步的词嵌入原创 2020-07-01 14:38:52 · 294 阅读 · 1 评论