使用词向量嵌入模型,获得近义词

本文介绍了如何使用词向量模型,特别是SGNS模型,结合Faiss库计算词向量的相似度。通过加载预训练模型,确定最佳模型参数,并探讨了微服务部署的可能性。
摘要由CSDN通过智能技术生成

整体框架

主要嵌入模型来自于github, 计算词向量使用Faiss。部署为微服务接口可以使用各种web框架,如flask, django, fastapi等。

读取模型

此项目提供了非常多的预训练模型,读相应的论文 Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018. 可知,主要分为SGNS(稠密向量), PPMI(稀疏向量), 要计算词向量之间的相似度,我们选择SGNS模型。在这里插入图片描述
有不同语料*分词方法,根据论文可知,使用综合语料+Word+Character+Ngram训练的模型,在相应的评价指标Word Similarity和Word Analogy上评分最高,故使用此模型。

根据项目的issues可知,模型是bz2的压缩包,里面是纯文本,数据如下:

	字/词的个数  300维向量
	字/词1  具体的向量......
	字/词2  具体的向量......
	......

读取代码

def read_model(path: str) ->
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值