小项目（Gensim库）--维基百科中文数据处理

最新推荐文章于 2024-03-04 11:26:39 发布

fenfenxhf

最新推荐文章于 2024-03-04 11:26:39 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/fenfenxhf/article/details/82995879

版权

本文介绍了一个小项目，利用Gensim库处理维基百科的中文数据。首先从网上下载数据，然后预处理文件，将压缩文件转换为.txt。接着将繁体中文转为简体，使用opencc工具完成。之后对简体中文进行分词，通过Testjieba.py脚本执行。最后，使用word2vec_model.py构建词向量模型，以实现相近词汇的词向量相似性。测试代码在test.py中，强调大语料库能提升效果。

摘要由CSDN通过智能技术生成

1.下载维基百科数据
https://dumps.wikimedia.org/zhwiki/latest/
在这里插入图片描述
2.预处理文件：将压缩的文件转化成.txt文件
添加脚本文件process.py，代码如下：

import logging
import os.path
import sys
from gensim.corpora import WikiCorpus

if __name__ == '__main__':

    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
    # check and process input arguments
    if len(sys.argv) < 3:
        print(globals()['__doc__'] % locals())
        sys.exit(1)
    inp, outp = s

最低0.47元/天解锁文章

fenfenxhf

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
小项目（Gensim库）--维基百科中文数据处理

1.下载维基百科数据https://dumps.wikimedia.org/zhwiki/latest/2.预处理文件：将压缩的文件转化成.txt文件添加脚本文件process.py，代码如下：import loggingimport os.pathimport sysfrom gensim.corpora import WikiCorpusif __name__ == '__...
复制链接

扫一扫