利用word2vec创建中文主题词典——以网络暴力关键词为例
本文主要是记录一下自己过滤分类信息的一个步骤。主要目的是从爬取的素材中得到一个集中、有效的、有关网络暴力的中文词库。主要思路是将已分词的素材 source.txt 通过 word2vec 训练出一个模型 vectors.bin,再把人工挑选的种子库 feed.txt 中的种子输入模型,得到相似的词,最后获得词库。目录文本预处理准备语料构建种子库Word2vec模拟Linux环境(Cygwin)word2vec模型训练文本预处理我在本篇文章中使用的是从新浪微博中爬取的网友有关网暴态度倾向的材料.
原创
2020-09-16 00:58:17 ·
4386 阅读 ·
10 评论