基于Word2Vec的文本关键词抽取方法

最新推荐文章于 2025-09-09 14:30:55 发布

原创

最新推荐文章于 2025-09-09 14:30:55 发布 · 1.2w 阅读

CC 4.0 BY-SA版权

大多数人都是将Word2Vec作为词向量的等价名词，也就是说，纯粹作为一个用来获取词向量的工具，关心模型本身的读者并不多。可能是因为模型过于简化了，所以大家觉得这样简化的模型肯定很不准确，所以没法用，但它的副产品词向量的质量反而还不错。没错，如果是作为语言模型来说，Word2Vec实在是太粗糙了。

但是，为什么要将它作为语言模型来看呢？抛开语言模型的思维约束，只看模型本身，我们就会发现，Word2Vec的两个模型 —— CBOW和Skip-Gram —— 实际上大有用途，它们从不同角度来描述了周围词与当前词的关系，而很多基本的NLP任务，都是建立在这个关系之上，如关键词抽取、逻辑推理等。

有心想了解这个系列的读者，有必要了解一下Word2Vec的数学原理。当然，Word2Vec出来已经有好几年了，介绍它的文章数不胜数，这里我推荐peghoty大神的系列博客： http://blog.csdn.net/itplus/article/details/37969519 为了方便读者阅读，我还收集了两个对应的PDF文件：

word2vector中的数学原理详解.pdf https://spaces.ac.cn/usr/uploads/2017/04/2833204610.pdf

Deep Learning 实战之 word2vec.pdf https://spaces.ac.cn/us

最低0.47元/天解锁文章

16 条评论

m0_58799037 2022.11.01
博主您好请问data.txt文件在哪里获取呢

vivian_0110 2022.10.23
data1在哪里呀？

MooonicaMMM 2021.02.19
您好，您的data.txt文件在哪里下载呢

Yue_project 2019.09.03
博主您好，感谢您的文章，您代码中使用的是word2vec的模型，而非词向量来做的。这块我就没看懂，而且训练出来的模型也没有结果，显示Series([], dtype: float64)，您知道是为什么吗？

北木. 2019.03.04
这种训练方式能生成 .npy文件吗，可否指导一下，谢谢
- 呐年呐友°回复qq_24343631 2022.04.22
  用utf-8的方式读取
- qq_24343631回复北木. 2019.08.05
  [reply]weixin_43283397[/reply] 老铁，想问问你，这个代码提取的关键词怎么样？我用www.py是老是在s = fileline()这个地方报错，希望老铁指导指导

北木. 2019.03.01
处理文本的时候结果也不正确，www.py文件感觉没有实现功能
- 小白的进阶回复北木. 2019.03.04
  [reply]weixin_43283397[/reply] 有些小细节需要你自己修改一下
- 小白的进阶回复北木. 2019.03.04
  [reply]weixin_43283397[/reply] github已修正

北木. 2019.03.01
博客的理论写的挺好的

weixin_43875311 2019.03.01
博主您好，可以简单谈一下最后www.py用词向量做关键词提取的思路吗？看了一下代码，有点看不懂，谢谢了

北木. 2019.02.28
运行了GitHub上的代码，但程序没有调用wiki中文语料，去停用词等功能也没实现
- 小白的进阶回复北木. 2019.03.04
  [reply]weixin_43283397[/reply] 可以多文档处理
- 北木.回复小白的进阶 2019.03.01
  [reply]laobai1015[/reply] 谢谢回复，fenci.py在github上没见到，程序能实现对多文档的处理吗？GitHub上的文件感觉不太全，，，谢谢
- 小白的进阶回复北木. 2019.03.01
  [reply]weixin_43283397[/reply] 有一个fenci.py可以去停用词