基于WIKI中文语料·Word2Vec模型训练·Python

最新推荐文章于 2023-01-27 11:02:23 发布

Finley锦城当云乐

最新推荐文章于 2023-01-27 11:02:23 发布

阅读量1.3k

点赞数 2

文章标签： python word2vec 自然语言处理

本文链接：https://blog.csdn.net/Finoyunle/article/details/123037964

版权

本文记录了使用Python3.9和Pycharm2021环境，基于WIKI中文语料训练Word2Vec模型的过程。包括环境配置、数据下载、XML到TXT转换、繁体到简体转换、分词及模型训练等步骤。参考了多位前辈的博文并进行了修改。

摘要由CSDN通过智能技术生成

在做文本情感分类的项目，研究到Word2Vec模型了。

自己来实践一下，网上大多数代码经过时间的流逝，多多少少都出了点小问题，为了方便自己之后的学术垃圾的制造，把自己跑出来的，修改过的代码和方法记录一下。

1.环境

1.1环境配置

Python3.9，Pycharm2021

1.2需要的库（搭建的虚拟环境，直接通过File->Settings引入）

import logging
from gensim.corpora import WikiCorpus
import jieba
import logging
from gensim.models import word2vec
import warnings
import os.path
import sys
import multiprocessing
from gensim.models.word2vec import LineSentence

1.3Opencc简繁置换插件

根据以下这篇博文的内容进行安装和操作即可。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Finley锦城当云乐

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用自己的语料训练word2vec模型

尾尾部落

08-14

6273

一、准备环境和语料：新闻20w+篇（格式：标题。正文）【新闻可以自己从各大新闻网站爬取，也可以下载开源的新闻数据集，如互联网语料库(SogouT) 中文文本分类数据集THUCNews 李荣陆英文文本分类语料谭松波中文文本分类语料等结巴分词 word2vec 二、分词先对新闻文本进行分词，使用的是结巴分词工具，将分词后的文本保...

wiki中文语料的word2vec模型构建

weixin_30898109的博客

03-25

760

一、利用wiki中文语料进行word2vec模型构建　1）数据获取　　到wiki官网下载中文语料，下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件，里面是一个XML文件　　下载地址如下：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml....

1 条评论您还未登录，请先登录后发表或查看评论

word2vec中文语料处理及模型训练实践

SpinMeRound的博客

07-20

1122

1.word2vec简介（节选自百度百科） Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。 2.Python实践（参考https://blog.csdn.net/shuihupo/article/details/85162237）

python训练Word2Vec词向量

daiyu__zz的博客

05-07

2885

一、模型训练 1、安装gensim pip install gensim gensim中封装了包括word2vec、doc2vec等模型，word2vec采用了CBOW(Continuous Bag-Of-Words,连续词袋模型)和Skip-Gram两种模型。 2、模型训练 from gensim.models import Word2Vec model = Word2Vec(sentence...

基于深度学习的Wiki中文语料词word2vec向量模型

毕业作品网站

06-29

1333

本实例主要介绍的是选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容，对应的是实现模型构建的五个步骤。

基于深度学习的Wiki中文语料词word2vec向量模型.zip

06-29

本次设计选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和...

中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建

weixin_30588427的博客

02-05

786

本实例主要介绍的是选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容，对应的是实现模型构建的五个步骤。一、开发环境准备1.1 python环境在python官网下载计算机对应的python版本，本人使用的是Python2....

基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

锅巴

07-11

3285

目录一、数据获取二、将xml格式数据转为txt 三、繁体转为简体方法1---自己使用opencc库手动了1个转换程序，pip install opencc进行安装方法2---网上有一个exe应用程序进行转换，详情见：https://bintray.com/package/files/byvoid/opencc/OpenCC 四、分词五、Word2Vec模型训练六、W...

基于wiki的中文语料进行word2vec模型训练

Mrhan的博客

08-23

3630

最近看了一篇NDSS会议上的一篇论文，有关web安全方向和nlp方向的，论文题目为《Game of Missuggestions: Semantic Analysis of Search-Autocomplete Manipulations》。正好自己也想学学nlp。为将来毕业做准备。。。也算一个小白。。看到论文使用了词向量word2vec算法，便去研究了一下算法原理。看了很多中英文博客，...

中文维基语料Word2Vec训练模型

07-25

原文件为zhwiki-latest-pages-articles.xml.bz2，大小为1.7G，最新时间为19年7月下载，转为txt文本，繁转简，分词，gensim训练后的model文件

word2vec训练中文模型

u014330763的博客

06-05

565

首先需要一份比较大的中文语料数据，可以考虑中文的维基百科（也可以试试搜狗的新闻语料库）。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2中文维基百科的数据不是太大，xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文...

【用户行为分析】用wiki百科中文语料训练word2vec模型

最新发布

机器学习深度学习业余选手

01-27

371

基于 word2vec 使用 wiki 中文语料库实现词向量训练模型

利用维基百科语料和gensim训练中英文word2vec模型

C_envelope的博客

08-26

2179

首先声明本文内容主要参考（1）中英文维基百科语料上的Word2Vec实验（2）Wiki语料处理旨在记录下自己亲自训练的过程维基百科语料下载地址英文：https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 中文：https://dumps.wikimedia.org/zhwi...

python训练自己中文语料库_使用word2vec训练wiki中文语料

weixin_39785669的博客

11-26

275

实验环境：Ubuntu + eclipse + python3.5首先（1）下载最新中文wiki语料库：（2）由于下载之后，语料库上的编码格式会有不同，因此需要进行处理一下：借鉴了这篇文章。这样处理后打开wiki.cn.text看有大部分的繁体字和少量英文，所以还需进一步处理（3）　然后将繁体改为简体，本次实验采用了opencc工具。安装：sudo apt-get install opencc安装...

自然语言处理（NLP）：06 word2vec训练中文模型-文本分类

艾文

08-02

7419

本章节主要研究内容：基于word2vec 提取特征 + 文本分类

Python实现中文的word2vec

小白_努力

01-08

6354

使用维基百科语料训练Chinese word2vec模型

本文档提供了一个名为`process_wiki_data.py`的Python脚本，用于处理中文维基百科的XML数据，将其转换成适合Word2Vec模型训练的文本格式。脚本的第1行声明使用`#!/usr/bin/env python`，这表明这是一个Python可...