120G+训练好的word2vec模型（中文词向量）

最新推荐文章于 2024-10-31 11:18:58 发布

Artoria____

最新推荐文章于 2024-10-31 11:18:58 发布

阅读量6.5k

点赞数 18

分类专栏： NLP

原文链接：https://www.jianshu.com/p/ae5b45e96dbf

版权

NLP 专栏收录该内容

13 篇文章

订阅专栏

多人缺少大语料训练的word2vec模型，在此分享下使用268G+语料训练好的word2vec模型。

训练语料：

百度百科800w+条，26G+
搜狐新闻400w+条，13G+
小说：229G+
在这里插入图片描述

模型参数：

window=5
min_count=10
size=128
hs=1
negative=0
iter=5

其它参数见gensim库，执行代码为：gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)

其它相关：

1.分词词典使用了130w+词典。分词代码：jieba.lcut(sentence)，默认使用了HMM识别新词；
2.剔除了所有非中文字符；
3.最终得到的词典大小为6115353；
4.模型格式有两种bin和model，使用方式：
(1)bin模型：

 import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.bin',binary=True)
print(model['love'])

(2)model模式：model = gensim.models.Word2Vec.load(model_path)

下载链接：

链接:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密码:9aza

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Artoria____

关注关注

18
点赞
踩
35

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

自然语言处理（NLP）：06 word2vec训练中文模型-文本分类

艾文

08-02

7531

本章节主要研究内容：基于word2vec 提取特征 + 文本分类

TensorFlow 系列案例（2）：自然语言处理-TensorFlow + Word2Vec

段智华的博客

07-28

2628

TensorFlow 卷积神经网络系列案例（1）：猫狗识别 https://blog.csdn.net/duan_zhihua/article/details/81156693 TensorFlow 系列案例（2）：自然语言处理-TensorFlow + Word2Vec 自然语言处理-TensorFlow + Word2Vec的步骤：加载倚天屠龙记的小说数据。将文本...

3 条评论您还未登录，请先登录后发表或查看评论

中文维基语料Word2Vec训练模型

07-25

原文件为zhwiki-latest-pages-articles.xml.bz2，大小为1.7G，最新时间为19年7月下载，转为txt文本，繁转简，分词，gensim训练后的model文件

使用中文维基百科语料库训练一个word2vec模型

热门推荐

修炼之路

08-05

1万+

本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型。相关资料下载：中文维基百科下载地址：https://dumps.wikimedia.org/zhwiki/20180720/ WikiExtractor项目git地址：https://github.com/attardi/wikiextractor OpenCC项目git地址：https://github.com...

268G+训练好的word2vec模型（中文词向量）

古月哲亭

08-19

4930

268G+训练好的word2vec模型（从网上了解到，很多人缺少大语料训练的word2vec模型，在此分享下使用268G+语料训练好的word2vec模型。训练语料：百度百科800w+条，26G+ 搜狐新闻400w+条，13G+ 小说：229G+ image.png 模型参数： window=5 min_count=10 size=128 hs=1 negative=0 iter=5 ps：其它参数见gensim库，执行代码为：gensim.models.Word2Vec(sen

英文word2vec模型训练语料

01-26

本语料适合于使用word2vec英文训练的语料，共98M，包括常用的英文词汇，训练后效果不错。

word2Vec训练中文模型

CSDN_of_ding的博客

08-10

3576

本以为so easy，结果搞了一天，记录一下，方便以后回顾，如果能帮到你那最好了！ 1.准备数据与预处理首先需要一份比较大的中文语料数据，我用的中文维基百科. 中文维基百科的数据不是太大，xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文件，执行 python process_wiki_data.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text 以下是代码：process_wiki_data.py

NLP之中文词向量训练

HITzwx的博客

03-02

1321

Word2vec Word2vec是Goolge发布的、应用最广泛的词嵌入表示学习技术，其主要作用是高效获取词语的词向量，目前被用作许多NLP任务的特征工程。Word2vec 可以根据给定的语料库，通过优化后的训练模型快速有效地将一个词语表达成向量形式，为自然语言处理领域的应用研究提供了新的工具，包含Skip-gram（跳字模型）和CBOW（连续词袋模型）来建立词语的词嵌入表示。Skip-gram的主要作用是根据当前词，预测背景词（前后的词）；CBOW的主要作用是根据背景词（前后的词）预测当前词。 1）Sk

深入浅出Word2Vec原理解析

Microstrong

03-30

1718

本文概览： 1. 背景知识 Word2Vec是语言模型中的一种，它是从大量文本预料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中。 Word2Vec是用来生成词向量的工具，而词向量与语言模型有着密切的关系。因此，我们先来了解一些语言模型方面的知识。 1.1 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建。那什么叫做一个句子的概率呢？假设 ...

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

利炳根

05-01

1341

真正掌握一种算法，最实际的方法，完全手写出来。 LSTM（Long Short Tem Memory）特殊递归神经网络，神经元保存历史记忆，解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途：word representation（embedding）(词语向量)、sequence to sequence learning（输入句子预测句子）、机器翻译、语音识别等。 10...

【不可思议的Word2Vec】 2.训练好的模型

学海无涯

05-15

9487

由于后面几篇要讲解Word2Vec怎么用，因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间，并且保证读者可以复现后面的结果，笔者决定把这个训练好的模型分享出来，用Gensim训练的。单纯的词向量并不大，但第一篇已经说了，我们要用到完整的Word2Vec模型，因此我将完整的模型分享出来了，包含四个文件，所以文件相对大一些。提醒读者的是，如果你想获取完整的Word2Vec模型，又不想改源...

使用自己的语料训练word2vec模型

尾尾部落

08-14

6314

一、准备环境和语料：新闻20w+篇（格式：标题。正文）【新闻可以自己从各大新闻网站爬取，也可以下载开源的新闻数据集，如互联网语料库(SogouT) 中文文本分类数据集THUCNews 李荣陆英文文本分类语料谭松波中文文本分类语料等结巴分词 word2vec 二、分词先对新闻文本进行分词，使用的是结巴分词工具，将分词后的文本保...

word2vec训练中文模型—wiki百科中文库

mukvintt的博客

04-15

4728

ps：整理电脑文档，将之前的做的word2vec训练的中文模型实验记录做下poko，欢迎交流学习。1.准备数据与预处理注意事项：请将内存最好选择8g及以上的电脑，否则可能卡顿，并在开始时候安装好python的使用环境，不仅是python 的安装，最好还有就是安装好Anaconda3，修改相关的系统环境PATH变量，并且如果原先有python的路径去掉。并且还要安装好相关的gensim等库，具体参看...

word2vec训练中文模型的代码实现

xzhao的博客

04-13

1792

word2vec训练中文模型用例示范。使用了logging、os.path、WikiCorpus、Word2Vec等工具包。

NLP系列（4）Word2Vec 字&词向量的训练和使用

牧子川的博客

08-16

9346

word2vec 是静态词向量构建方法的一种，与 Embedding 词向量相似。本文将介绍 word2vec 词向量是如何训练的，训练好的 word2vec 词向量如何使用。由于不同的 gensim 的版本不同，在调用一些函数时会有差异。隐藏本文的 gensim 的版本为，以下代码都依此版本为准。...

Chinese Word2Vec 模型：开启中文自然语言处理新里程

gitblog_00056的博客

04-21

611

Chinese Word2Vec 模型：开启中文自然语言处理新里程去发现同类优质开源项目:https://gitcode.com/ 项目简介是一个由 yukunqi 开发的开源项目，旨在提供高质量的预训练中文词向量。该项目基于 Google 的 word2vec 算法，并针对中文数据集进行了优化，可以广泛应用于各种中文自然语言处理任务中。技术解析 Word2Vec 是一种深度学习模型，通过统...

268G+训练好的中文Word2Vec模型：解锁中文语义的强大工具