训练WIKI中文模型

最新推荐文章于 2022-03-29 09:20:39 发布

Close_Wall

最新推荐文章于 2022-03-29 09:20:39 发布

阅读量493

点赞数

分类专栏： pythom

本文链接：https://blog.csdn.net/suorce/article/details/101477725

版权

该博客介绍了如何训练WIKI中文模型，包括安装numpy和scipy等依赖包，从XML转换到txt，繁体转简体，分词，以及最终的模型训练过程。

摘要由CSDN通过智能技术生成

1. 安装依赖包

numpy：用来计算多维数组的包，基本操作可看：https://blog.csdn.net/cxmscb/article/details/54583415

scipy：用于数据统计，有多种常用的数据统计函数，也包括连续和离散两种随机变量，这个包要在安装了numpy之后才能安装

gensim：gensim是一个python的自然语言处理库，能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式，这个包要在安装了scipy之后才能安装

下载中文词集

下载地址：中文词集数据的下载地址

处理中文词集（xml）转化为txt

from gensim.corpora import WikiCorpus

# 将训练集转化（xml）为txt
# 参数：wiki训练集存放的路径，txt存放的路径
def translateTheText(xml_path,txt_path):
    path_to_wiki_dump = xml_path
    wiki_corpus = WikiCorpus(path_to_wiki_dump, dictionary={
   })
    num = 0
    with open(txt_path, 'w', encoding='utf-8') as output:
        for text in wiki_corpus