wiki百科词向量训练资料及其模型

一、结果预览

目标为求取python相关的内容为:
在这里插入图片描述
在这里插入图片描述
从结果上看,与python相关的内容为java、perl等编程语言

二、作用

个人简单理解:就是寻找相关的词,如上面的oython是一种编程语言,而perl、java等也是如此,但是又不是近义词,比如bash,bash是linux的命令处理器。

扩展用途:通过相关联的词进行分类、推荐(如广告推荐)、比较相似度等等;(个人觉得就是一个fuzzywuzzy更精确的版本)

理解可能不是很准确,可以参见以下:
在这里插入图片描述

关于其技术原理,可以参见链接: 全面理解word2vec.

训练过程

参见:: 《使用中文维基百科语料库训练一个word2vec模型》.
模型基本上也是参照这篇文章训练出来的,

(一)下载问题解决

只是相关工具下载过于困难,wiki资源最新的20200801的有2G左右,直接网页下载特别缓慢,换成迅雷只能享受几十秒的快速,接着也是几十kb的速度。

下载方式一:

首先下载idm,
就是这个
在这里插入图片描述

然后将网址导入idm

这个下载速度快点,大致在1mb左右

下载方式二:

使用闪电下载


下载速度大致也在1mb左右

下载方式三:

我将资源以及训练的模型放在了天翼云盘中,下载速度平均在8M左右,最快能有十几M,

在这里插入图片描述
在这里插入图片描述

但是麻烦的是需要注册
下载链接: 模型以及资源.

(二)训练过程的问题

训练时长在40多分钟左右,我的计算机比较老了,更好的计算机能更快点
1、训练时设置的一个参数,min_count=1,默认为5,这应该实在计算词语的频数,默认为5,即小于5的可能是被省略了,因而设为1可能更好,当然这取决于个人训练的模型的用途

def main():
print("开始....................")
start_time = time.time()
#logging.basicConfig(format="%(asctime)s:%(levelname)s:%(message)s", level=logging.INFO)
sentences = word2vec.LineSentence(r"---.txt".strip('\u202a'))
model = word2vec.Word2Vec(sentences, size=250,min_count=1)
# 保存模型
model.save(r"law1.model".strip('\u202a'))
end = time.time()
across = (end-start_time)/60
print(across)

2、训练时可能遇到报错

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte

这个报错的原因不明,因为预训练的内容就是utf-8写入的(不是wiki数据,而是另一个训练的模型中遇到这个报错)

解决方式就是另存一份utf-8的文件

3、模型预测时的问题
可能遇到KeyError:

KeyError: "word 'python' not in vocabulary"

在我训练的另一个模型中,对python进行模型预测,发现了这个问题。当然在wiki模型中,如果预测内容为:

["腾讯","阿里巴巴"]

也会出现这种报错:

	KeyError: "word '腾' not in vocabulary" 或者 	KeyError: "word '阿' not in vocabulary"

这是训练时某些字被去掉了,”腾“字不明白为什么,但是”阿“字可能在停用词处理就去掉了,因而训练时会出现一定的失误

解决方法,就是将该词训练进去

def solution_keyerror():
"""对模型更新"""
sentences = [["腾讯","腾讯","腾讯","腾讯","腾讯","腾讯","腾讯","腾讯","腾讯","腾讯","腾讯" ]]

model = word2vec.Word2Vec.load('J:\PyCharm项目\项目\中国裁判文书网\word2ver裁判文书词向量\law.model')
print(model)
model.build_vocab(sentences, update=True)  # prepare the model vocabulary
model.train(sentences, total_examples=model.corpus_count, epochs=model.iter)
print(model.most_similar("腾讯", topn=20))

solution_keyerror()

结果为:
在这里插入图片描述

这个方法并不是我想到的,而是来源于链接: KeyError: “word ‘在行’ not in vocabulary”.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Wiki百科词典下载百科云盘提供了一个便捷的途径,方便用户轻松地下载百科内容。Wiki百科词典是一个非常知名且重要的百科全书,其中包含了各种各样的信息,涵盖了历史、科学、文学、艺术、文化等多个领域,为了方便用户更好地使用,百科云盘就应运而生了。 百科云盘是一个云存储服务平台,为用户提供了一个免费存储、共享和备份各种文档、图片和视频的途径。用户可以在百科云盘中存储Wiki百科词典的内容,这样就可以方便地在任何地方随时查看百科内容,而不会受到网络连接不好的影响。此外,用户还可以将百科内容下载到自己的电脑中,这样更加方便离线使用。 百科云盘拥有一个先进的文件上传、下载和分享系统,用户可以轻松地上传和下载文件,并与其他人共享文件。此外,百科云盘还具有强大的隐私保护功能,用户可以选择将他们的文件设置为私有或公共,以便控制谁可以查看和下载他们的文件。 总的来说,Wiki百科词典下载百科云盘提供了一个非常方便的途径,使用户可以更轻松地访问和共享百科内容,无论是在线还是离线,都能够自由地查询各种各样的知识和信息。 ### 回答2: 百度百科是中国最大的在线百科全书,其中包含了来自全球各地数百万的词条。这些词条涵盖了各种领域的知识,包括历史、地理、文化、科技、艺术等等。使用百度百科可以帮助人们了解更多的知识,并且可以学习到许多新的内容。近年来,由于数据安全和隐私保护的原因,越来越多人开始使用百科云盘来下载百度百科的内容。百科云盘是百度百科提供的一种在线存储服务,用户可以通过这个服务将百度百科上的文章、图片、视频等内容下载到自己的电脑或移动设备上。使用百科云盘,用户不仅可以方便地浏览和学习百度百科的知识,还可以将这些内容保存在本地,方便随时查看和使用。总之,百度百科百科云盘为人们提供了一个更加便利、快捷的学习方式,帮助人们更好地了解和掌握知识。 ### 回答3: 百科云盘是一款非常方便的工具,能够供人们使用。通过百科云盘,我们可以下载wiki百科词典。wiki百科是一个由全世界网友共同编辑的百科全书,它包含了很多的文章和信息。在学习和生活中,我们经常需要查阅一些知识资料,而wiki百科是一个良好的资源库。因此,如果我们能够下载wiki百科词典,并将其保存在百科云盘上,那么就能够随时随地访问和使用这些信息。百科云盘还可以实现云端备份,这意味着我们的数据将会非常安全,不会丢失。另外,百科云盘还拥有一个优秀的界面和易用性,使得我们可以轻松地使用它进行文件的上传与下载。总的来说,百科云盘是一个非常实用的工具,它不仅可以帮助我们下载wiki百科词典,还能够帮助我们更好地存储和管理数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值