如何用word2vec 训练词嵌入模型

最新推荐文章于 2024-07-24 20:38:43 发布

NLP_小菜鸡

最新推荐文章于 2024-07-24 20:38:43 发布

阅读量874

点赞数

分类专栏：词嵌入 NLP 文章标签：深度学习自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunlinqin/article/details/110576989

版权

本文介绍了如何使用gensim库中的Word2Vec进行词向量训练，以提升商品搜索中的语义相似度计算。通过训练模型，可以计算用户输入与商品名的相似度，从而提供更精准的搜索结果。

摘要由CSDN通过智能技术生成

## 如何用word2vec 训练词嵌入模型

**一、应用场景**
假设你有一个商品的数据库，比如：
![](https://img-blog.csdnimg.cn/2020112714190259.png)
现在通过用户的输入来检索商品的价格。

**方法一：直接匹配法**

最简单的方法就是通过字符串进行匹配，比如，用户输入“椅子”，就用“椅子”作为关键字进行搜索，很容易找到椅子的价格就是200元/个。

**方法二：语义相似法**

但有时用户输入的是“凳子”，如果按照字符串匹配的方法，只能返回给用户，没有此商品。但实际上可以把“椅子”的结果返回给用户参考。这种泛化的能力，通过简单的字符串匹配是显然不能实现的。

“凳子”跟“椅子”的语意更相近，跟“香蕉”或“冰箱”的语意相对较远。在商品搜索的过程中，可以计算用户输入的关键字与数据库中商品名间的相似度，在商品数据库中找出相似度最大的商品，推荐给用户。

这种相近的程度就是词语的相似度。在实际的工程开发中可以通过word2vec实现词语相似度的计算。
**二、使用gensim自带的word2vec包进行词向量的训练步骤**

**1、下载安装gensim，pip install gemsim**

```
# 载包
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
```
**2、输入分词之后的维基语料进行词向量训练。**

```
# 训练模型
sentences = LineSentence('

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。