java加载中文词向量_Chinese Word Vectors：目前最全的中文预训练词向量集合

史东来

于 2021-02-28 03:14:13 发布

阅读量962

点赞数

文章标签： java加载中文词向量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26720271/article/details/114856786

版权

北京师范大学和人民大学的研究者开源了包含多种领域语料训练的中文词向量资源库，包括不同表征、上下文特征的词向量。项目提供预训练词向量、类比推理数据集CA8和评估工具，适用于各类自然语言处理任务。

摘要由CSDN通过智能技术生成

对于国内自然语言处理的研究者而言，中文词向量语料库是需求很大的资源。近日，来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」，试图为大家解决这一问题，该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量，涵盖各领域，且包含多种训练设置。目前，该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》已经被 ACL2018 大会接收。

项目链接：https://github.com/Embedding/Chinese-Word-Vectors

该项目提供使用不同表征(稀疏和密集)、上下文特征(单词、n-gram、字符等)以及语料库训练的中文词向量(嵌入)。在这里，你可以轻松获得具有不同属性的预训练向量，并将它们用于各类下游任务。

此外，开发者还在该工具中提供了一个中文类比推理数据集 CA8 及其评估工具包，用户可以以此评估自己词向量的质量。

格式

本资源中的预训练词向量文件以文本格式存储。每一行包含一个单词及其词向量。每个值由空格分开。第一行记录元信息：第一个数字表示该单词在文件中的排序，第二个数字表示维度大小。

除了密集单词向量(以 SGNS 训练)，该项目还提供了稀疏向量(以 PPMI 训练)。它们与 liblinear 格式相同，其中「：」前的数字代表维度索引，「：」后的数字表示值。

预训练中文词向量

基本设定

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。