将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量

最新推荐文章于 2023-10-30 21:42:58 发布

LJ0079

最新推荐文章于 2023-10-30 21:42:58 发布

阅读量391

点赞数

文章标签：将词向量传入MySQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35642961/article/details/113286452

版权

腾讯词向量介绍

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word embedding(200维词向量)，可以应用于很多NLP的下游任务。

关于分词：可以使用任何开源分词工具，可以同时考虑细粒度和粗粒度的分词方式。

关于停用词、数字、标点：为了满足一些场景的需求，腾讯词向量并没有去掉这些，使用的时候需要自己构建词表并忽略其他无关词汇。

Tencent_AILab_ChineseEmbedding.txt文件内容：

第一行是词向量总数(8824330)，和词向量维度(200)。

从第二行开始，每行是中文词以及它的词向量表示，每一维用空格分隔。

腾讯词向量使用举例

以查找近义词为例，介绍腾讯词向量的使用方法。

首先需要将已有的包含词和词向量的txt文件读入(使用KeyedVectors)

keyedVectors

可以很方便地从训练好的词向量中读取词的向量表示，快速生成 {词：词向量}

其中binary=False，加载的是txt文件，binary=True，加载的是二进制文件

然后构建词汇和索引的映射表，并用json格式离线保存，方便以后直接加载annoy索引时使用

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量

腾讯词向量介绍腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word embedding(200维词向量)，可以应用于很多NLP的下游任务。关于分词：可以使用任何开源分词工具，可以同时考虑细粒度和粗粒度的分词方式。关于停用词、数字、标点：为了满足一些场景的需求，腾讯词向量并没...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。