LDA2vec源码阅读

本文深入探讨LDA2vec模型,强调预处理步骤和文档权重的计算。模型采用词频的43次方作为权重,并通过线性变换结合LDA的25个主题与50维词向量。训练过程中使用负采样,通过预训练的词向量初始化,以优化内积加sigmoid的损失函数。文章还提出LDA2vec不仅作为主题模型,还可用于编码额外信息到词向量中进行无监督学习。
摘要由CSDN通过智能技术生成

特别注意spacy的版本是1.9

preprocess函数进行预处理

20newsgroups/train.py:8

data = np.load('data.npy')  #  (1023189, 12)
unigram_distribution = np.load('unigram_distribution.npy') # (7460, )
word_vectors = np.load('word_vectors.npy') #  (7460, 50)
doc_weights_init = np.load('doc_weights_init.npy') # (12829, 25)
名称 大小
窗口个数 1023189
窗口宽度 5 × 2 5\times 2 5×2
词数 7460
词向量维数 50
文档数 12829
文档向量维数 25

utils/training.py:74

weights是每个文档样本的样本权重, 用文档词数来算(或者说窗口数)

weights  # (n_documents, ) 

unigram_distribution根据词频率的 3 4 \frac{3}{4}

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值