LDA2vec源码阅读

最新推荐文章于 2023-01-12 22:37:25 发布

数学工具构造器

最新推荐文章于 2023-01-12 22:37:25 发布

阅读量773

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TQCAI666/article/details/109580500

版权

本文深入探讨LDA2vec模型，强调预处理步骤和文档权重的计算。模型采用词频的43次方作为权重，并通过线性变换结合LDA的25个主题与50维词向量。训练过程中使用负采样，通过预训练的词向量初始化，以优化内积加sigmoid的损失函数。文章还提出LDA2vec不仅作为主题模型，还可用于编码额外信息到词向量中进行无监督学习。

摘要由CSDN通过智能技术生成

特别注意spacy的版本是1.9

用preprocess函数进行预处理

20newsgroups/train.py:8

data = np.load('data.npy')  #  (1023189, 12)
unigram_distribution = np.load('unigram_distribution.npy') # (7460, )
word_vectors = np.load('word_vectors.npy') #  (7460, 50)
doc_weights_init = np.load('doc_weights_init.npy') # (12829, 25)

名称	大小
窗口个数	1023189
窗口宽度	$5\times 2$
词数	7460
词向量维数	50
文档数	12829
文档向量维数	25

utils/training.py:74

weights是每个文档样本的样本权重, 用文档词数来算(或者说窗口数)

weights  # (n_documents, )

unigram_distribution根据词频率的 $\frac{3}{4}$

最低0.47元/天解锁文章

数学工具构造器

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LDA2vec源码阅读

特别注意spacy的版本是1.9用preprocess函数进行预处理20newsgroups/train.py:8data = np.load('data.npy') # (1023189, 12)unigram_distribution = np.load('unigram_distribution.npy') # (7460, )word_vectors = np.load('word_vectors.npy') # (7460, 50)doc_weights_init = np.lo
复制链接

扫一扫

专栏目录

数学工具构造器 CSDN认证博客专家 CSDN认证企业博客

码龄6年

503: 原创

21万+: 周排名

164万+: 总排名

41万+: 访问

: 等级

8026: 积分

206: 粉丝

171: 获赞

130: 评论

562: 收藏

私信

关注

热门文章

分类专栏

最新评论

编写C++代码理解原码和补码
做而论道_CS: 所谓的：机器数符号位原码反码 ... 都是计算机专家在【忽悠、卖拐】而已。正负数值，存入计算机，都是以 “补码” 存放的。计算机中，根本就没有原码和反码。除非，你偏要自寻烦恼，偏要在计算机中，存入原码和反码。既然没有原码反码，那么，取反加一，计算机也就不能做了。其实，所谓的 “补码”，也是正常的数字。　也并非一定是二进制数。你看十进制吧，两位数：0 ~ 99。可以有：27 + 99 = (一百) 26 也可以：27 － 1 = 26 如果你忽略进位，依旧保持两位数，　这两种算法的功能，就是相同的！就是说，当你舍弃了进位：　负数，就能用正数代替；　加法，竟然就能实现减法运算！在计算机中，舍弃进位，会怎样？　就可以简化硬件。　用一个加法器，便可横行天下！由此可知，“补码”，根本就不是什么新鲜事。　“补码” 关键，是：【舍弃进位】。　并不是：符号位原码反码取反加一。－－－－－－－－－－－用两位十进制运算时，舍弃进位，就是【减去一百】。那么，加 99，再减 100，当然就是 “－1” 了。计算机使用的，是二进制数。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现 “进位 = 1”，就是：2^8 = 256。那么，加 255，再减 256，这也就是 “－1” 了。所以：+255 (1111 1111)，就是：－1；同理：+254 (1111 1110)，就是：－2；　　　+253 (1111 1101)，就是：－3；　　　。。。　。。。　　　+128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　之所以能代替负数，关键是【舍弃了进位】。　“补码” 与 “符号位原码反码” 也没有任何关系。至此，你肯定能看出关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。　这不就求出来了吗？　　哪还用琢磨什么：符号位原码取反。。。！　　　还要啥自行车啊！
UltraOpt：比HyperOpt更强的超参优化库
2401_84289284: 为什么安装运行代码后出现Invalid optimizer string-indicator: ETPE呢？
C++ 学习
不知名的憨包: 这是什么课程啊，在哪里看啊
ASTGCN
gsagsfasds: 你好，请问你使用原mxnet版本的代码跑通了吗
sdf转smi
野蛮北野1: 作者，您好我想请问一下这个代码是什么意思、我没太看懂（初学者我是）

大家在看

usbserver工程师手记(四）ft2usbhub服务启动不了 56

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。