120G+训练好的word2vec模型（中文词向量）

最新推荐文章于 2024-07-27 10:20:50 发布

免点兔

最新推荐文章于 2024-07-27 10:20:50 发布

阅读量2.1w

点赞数 6

文章标签： word2vec 中文词向量 word2vec模型

从网上了解到，很多人缺少大语料训练的word2vec模型，在此分享下使用120G+语料训练好的word2vec模型。

训练语料：

百度百科800w+条，20G+
搜狐新闻400w+条，12G+（数据下载链接见其它博文）
小说：90G左右

模型参数：

window=5
min_count=5
size=64
ps：其它参数见gensim库，执行代码为：Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)

其它相关：

分词词典使用了130w+词典。分词代码：jieba.lcut(sentence)，默认使用了HMM识别新词；
剔除了所有非中文字符；
最终得到的词典大小为6115353；
目前只跑了64维的结果，后期更新128维词向量；
模型格式有两种bin和model；

下载链接：链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8

本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

免点兔

关注关注

6
点赞
踩
49

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

自然语言处理（NLP）：06 word2vec训练中文模型-文本分类

艾文

08-02

7418

本章节主要研究内容：基于word2vec 提取特征 + 文本分类

使用中文维基百科语料库训练一个word2vec模型

最新发布

程序员小麦的博客

07-27

747

随着 AI 应用的持续火热，许多并不了解 AI 技术的人可能会被众多专业术语搞得一头雾水。相信大家经常会听到「嵌入（embedding）」和「向量（Vector）」这几个词。那么，这些术语到底是什么意思呢？在与我的产品经理交流时，我发现他对这些概念仍然处于似懂非懂的状态。本文将深入探讨这些概念，帮助大家更好地理解它们在 AI 应用中的重要性。Embedding 是一种将高维数据（如文本、图像等）映射到低维空间的技术。具体来说，embedding 是将文本嵌入到向量空间中，用向量来表示文本的含义。

【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

Daycym的博客

04-03

7280

前言本篇主要是基于gensim 库中的 Word2Vec 模型，使用维基百科中文数据训练word2vec 词向量模型，大体步骤如下：数据预处理模型的训练模型的测试准备条件： Windows10 64位 Python3.6，并安装 gensim 库：pip install gensim 数据集：下载地址注意：下载 zhwiki-latest-pages-article...

使用自己的语料训练word2vec模型

尾尾部落

08-14

6272

一、准备环境和语料：新闻20w+篇（格式：标题。正文）【新闻可以自己从各大新闻网站爬取，也可以下载开源的新闻数据集，如互联网语料库(SogouT) 中文文本分类数据集THUCNews 李荣陆英文文本分类语料谭松波中文文本分类语料等结巴分词 word2vec 二、分词先对新闻文本进行分词，使用的是结巴分词工具，将分词后的文本保...

268G+训练好的word2vec模型（中文词向量）

古月哲亭

08-19

4703

268G+训练好的word2vec模型（从网上了解到，很多人缺少大语料训练的word2vec模型，在此分享下使用268G+语料训练好的word2vec模型。训练语料：百度百科800w+条，26G+ 搜狐新闻400w+条，13G+ 小说：229G+ image.png 模型参数： window=5 min_count=10 size=128 hs=1 negative=0 iter=5 ps：其它参数见gensim库，执行代码为：gensim.models.Word2Vec(sen

【不可思议的Word2Vec】 2.训练好的模型

学海无涯

05-15

9164

由于后面几篇要讲解Word2Vec怎么用，因此笔者先训练好了一个Word2Vec模型。为了节约读者的时间，并且保证读者可以复现后面的结果，笔者决定把这个训练好的模型分享出来，用Gensim训练的。单纯的词向量并不大，但第一篇已经说了，我们要用到完整的Word2Vec模型，因此我将完整的模型分享出来了，包含四个文件，所以文件相对大一些。提醒读者的是，如果你想获取完整的Word2Vec模型，又不想改源...

NLP系列（4）Word2Vec 字&词向量的训练和使用

牧子川的博客

08-16

8822

word2vec 是静态词向量构建方法的一种，与 Embedding 词向量相似。本文将介绍 word2vec 词向量是如何训练的，训练好的 word2vec 词向量如何使用。由于不同的 gensim 的版本不同，在调用一些函数时会有差异。隐藏本文的 gensim 的版本为，以下代码都依此版本为准。...

深入浅出Word2Vec原理解析

Microstrong

03-30

1612

本文概览： 1. 背景知识 Word2Vec是语言模型中的一种，它是从大量文本预料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中。 Word2Vec是用来生成词向量的工具，而词向量与语言模型有着密切的关系。因此，我们先来了解一些语言模型方面的知识。 1.1 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建。那什么叫做一个句子的概率呢？假设 ...

中文维基语料Word2Vec训练模型

07-25

原文件为zhwiki-latest-pages-articles.xml.bz2，大小为1.7G，最新时间为19年7月下载，转为txt文本，繁转简，分词，gensim训练后的model文件

英文word2vec模型训练语料

01-26

本语料适合于使用word2vec英文训练的语料，共98M，包括常用的英文词汇，训练后效果不错。

word2vec中文词向量

09-28

使用gensim对维基百科作为预训练语料（约1.6G语料），生成词汇量约13000个词汇，维度为300，文件大小为45.6MB。使用方法，参考博客：https://blog.csdn.net/qq_36426650/article/details/87738919

word2vec中文词向量.zip

12-03

中文的word2vec词向量

05-05

个人训练的一套word2vec中文词向量。维度为200维。python装gensim后可以直接用！

TensorFlow 系列案例（2）：自然语言处理-TensorFlow + Word2Vec

段智华的博客

07-28

2559

TensorFlow 卷积神经网络系列案例（1）：猫狗识别 https://blog.csdn.net/duan_zhihua/article/details/81156693 TensorFlow 系列案例（2）：自然语言处理-TensorFlow + Word2Vec 自然语言处理-TensorFlow + Word2Vec的步骤：加载倚天屠龙记的小说数据。将文本...

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

利炳根

05-01

1289

真正掌握一种算法，最实际的方法，完全手写出来。 LSTM（Long Short Tem Memory）特殊递归神经网络，神经元保存历史记忆，解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途：word representation（embedding）(词语向量)、sequence to sequence learning（输入句子预测句子）、机器翻译、语音识别等。 10...

EasyNLP 发布融合语言学和事实知识的中文预训练模型 CKBERT

阿里云技术

11-02

289

预训练语言模型在 NLP 的各个应用中都有及其广泛的应用，本⽂简要介绍 CKBERT 的技术解读，以及如何在 EasyNLP 框架、HuggingFace Models 和阿里云机器学习平台PAI 上使⽤ CKBERT 模型。