使用tfidf加权的word2vec来计算文本向量

最新推荐文章于 2024-06-17 21:12:11 发布

置顶 ws_nlp_

最新推荐文章于 2024-06-17 21:12:11 发布

阅读量4.9k

点赞数 4

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33624866/article/details/106430352

版权

使用tfidf加权的word2vec来计算文本向量，可以用来计算文本相似度

首先根据训练数据计算出word2vec和tfidf_model

然后预测每句时，用tfidf_model计算每个词的tfidf
再用每个词的word2vec与tfidf相乘，最后取平均得到文本向量

值得注意的是

tfidf用到了文档频率，训练数据的文档频率可以获取。
当预测每个文档时，其他的文档对tfidf模型不可见，那么是如何计算的呢，是用预测文档的tf与训练数据的idf相乘做计算？这里是全部使用训练用的tfidf

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
14
评论
使用tfidf加权的word2vec来计算文本向量

使用tfidf加权的word2vec来计算文本向量，可以用来计算文本相似度首先根据训练数据计算出word2vec和tfidf_model然后预测每句时，用tfidf_model计算每个词的tfidf再用每个词的word2vec与tfidf相乘，最后取平均得到文本向量这里面有个问题，希望会的同学能帮忙解答tfidf用到了文档频率，训练数据的文档频率可以获取。当预测每个文档时，其他的文档对tfidf模型不可见，那么是如何计算的呢，是用预测文档的tf与训练数据的idf相乘做计算嘛？...
复制链接

扫一扫

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。