将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量

腾讯词向量介绍

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word embedding(200维词向量),可以应用于很多NLP的下游任务。

关于分词:可以使用任何开源分词工具,可以同时考虑细粒度和粗粒度的分词方式。

关于停用词、数字、标点:为了满足一些场景的需求,腾讯词向量并没有去掉这些,使用的时候需要自己构建词表并忽略其他无关词汇。

Tencent_AILab_ChineseEmbedding.txt文件内容:

第一行是词向量总数(8824330),和词向量维度(200)。

从第二行开始,每行是中文词以及它的词向量表示,每一维用空格分隔。

8f0881cff914d1d48289f838b6d8cee8.png

腾讯词向量使用举例

以查找近义词为例,介绍腾讯词向量的使用方法。

首先需要将已有的包含词和词向量的txt文件读入(使用KeyedVectors)

keyedVectors

可以很方便地从训练好的词向量中读取词的向量表示,快速生成 {词:词向量}

其中binary=False,加载的是txt文件,binary=True,加载的是二进制文件

然后构建词汇和索引的映射表,并用json格式离线保存,方便以后直接加载annoy索引时使用

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值