特别注意spacy的版本是1.9
用preprocess
函数进行预处理
20newsgroups/train.py:8
data = np.load('data.npy') # (1023189, 12)
unigram_distribution = np.load('unigram_distribution.npy') # (7460, )
word_vectors = np.load('word_vectors.npy') # (7460, 50)
doc_weights_init = np.load('doc_weights_init.npy') # (12829, 25)
名称 | 大小 |
---|---|
窗口个数 | 1023189 |
窗口宽度 | 5 × 2 5\times 2 5×2 |
词数 | 7460 |
词向量维数 | 50 |
文档数 | 12829 |
文档向量维数 | 25 |
utils/training.py:74
weights
是每个文档样本的样本权重, 用文档词数来算(或者说窗口数)
weights # (n_documents, )
unigram_distribution
根据词频率的 3 4 \frac{3}{4}