Content Tree Word Embedding for document representation

一 简介

该篇论文是对文本向量进行建模,不过采取的是比较简单的方法,就是将文本中所有词的向量求平均作为该文本的向量表示。不过词向量并不是简单的用word2vec或其他词向量模型生成,而是借助了content tree,在预训练好的词向量的基础上对词向量进行进一步的更新,在更新后的词向量的基础上求平均以表示文本。

二 content tree的创建

content tree就是以树形结构去表示一个文本。其假设文本的第一个词作文树的root,第二个词作为root的子节点。随后将计算文本中出现的词与树中的词的皮尔逊系数,将系数最大的词作为新词的parent节点。算法如下图所示。

通过上述算法得到content tree后,下一步要做的就是对词向量的更新。

词向量更新

其初始词向量是由其他词向量模型,如word2vec和Glove等训练而成。不过为了得到高质量的文本向量,虽然只是平均运算,但是对词向量进行了基于content tree的更新。词向量的更新利用的是当前词向量与parent向量的加权平均值,计算方式如下

由上式可知,词向量的更新是一个迭代的过程,如下所示

在得到新的词向量后,去平均值作为文本向量。如下所示

整个的算法流程如下图所示

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值