lda2vec (4)——计算理论

在这里插入图片描述
word2vec中:上下文向量是枢轴词语的词向量
LDA中:上下文向量是文档向量
lda2vec中:上下文向量=词向量+文档向量

  1. 区分语料中随机抽取的词语和负采样词语的损失函数:
    在这里插入图片描述
    当损失函数最小的时候能够把语料中的词语与负采样词语区分开。

在这里插入图片描述
其中cj代表上下文向量(context vectors),wj代表词向量,dj代表文档向量。这里是把词向量与文档向量相加作为上下文向量的初始值。

在这里插入图片描述
这里是文档向量的表示方法,aji是文档向量中每个主题的权重,t0是整个语料中每个主题的主题向量,t0和wj是同维向量。我们可以通过计算词向量与该主题的相似程度从而得到可以表示该主题的相关词汇,相似程度=t0*wj。
在这里插入图片描述
文档向量中的权重会根据每个文档变化,但是主题不会发生变化,整个语料中的主题是固定的。

    1. 狄利克雷抽样
      为了能让权重像稀疏的狄利克雷分布,lda2vec没有从狄利克雷分布中抽样,而是选择优化狄利克雷函数,使潜在的主题向量尽量稀疏,使文档权重有意义。使主题向量更好描述,并且产生连贯的词语。
      在这里插入图片描述
    1. 最终的目标函数:
      在这里插入图片描述
    1. 正则化协方差**(可以改进的地方)**
      lda2vec没有从狄利克雷分布中抽样,而是优化狄利克雷函数。这种做法可以对相同主题进行处理。处理方法如下:
      (1)正则化协方差
      (2)penalize the determinant of the topic covariance matrix.协方差矩阵可以计算主题向量i和主题向量j的相关度。determinant能够penalize协方差矩阵的复杂度。所以能够在正则化公式中添加一个损失函数:
      在这里插入图片描述
      参考文献:https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/#topic=38&lambda=1&term=
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值