Python基于word2vec的词语相似度计算

最新推荐文章于 2024-07-03 10:24:51 发布

啊啊平

最新推荐文章于 2024-07-03 10:24:51 发布

阅读量9.7k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/MG_ApinG/article/details/102662017

版权

在商品搜索场景中，通过word2vec计算关键字与商品名的相似度，推荐相似商品。文章介绍了如何使用gensim库的word2vec，讲解了skip-gram、CBOW算法、词向量维数、窗口大小、词频过滤等关键参数，并提示了调试技巧，如保存和复用中间结果。

摘要由CSDN通过智能技术生成

词语相似度计算

在商品搜索的过程中，可以计算用户输入的关键字与数据库中商品名间的相似度，在商品数据库中找出相似度最大的商品，推荐给用户。比如“凳子”跟“椅子”的语意更相近，跟“香蕉”或“冰箱”的语意相对较远，这种相近的程度就是词语的相似度。在实际的工程开发中可以通过word2vec实现词语相似度的计算。

from sklearn.datasets import fetch_20newsgroups

news = fetch_20newsgroups(subset='all')
X, y = news.data, news.target

from bs4 import BeautifulSoup
import nltk, re


# 把段落分解成由句子组成的list（每个句子又被分解成词语）
def news_to_sentences(news):
    news_text = BeautifulSoup(news, 'lxml').get_text()
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    raw_sentences = tokenizer.tokenize(news_text)

    # 对每个句子进行处理，分解成词语
    sentences = []
    for sent in raw_sentences:
        sentences.append(re.sub('[^a-zA-Z]', ' ', sent.lower().strip()).split())
    return sentences


sentences = []

for x in