（7-2）基于隐语义模型的推荐：潜在语义索引

码农三叔

于 2024-02-29 16:51:51 发布

阅读量884

点赞数 16

分类专栏：推荐系统文章标签： python 人工智能算法深度学习推荐算法

本文链接：https://blog.csdn.net/asd343442/article/details/136375603

版权

推荐系统专栏收录该内容

65 篇文章 10 订阅

订阅专栏

7.2 潜在语义索引

潜在语义索引（Latent Semantic Indexing，LSI）是一种基于矩阵分解的潜在语义模型，用于在文本数据中捕捉潜在的语义关联性。LSI通过降低文本-词语矩阵的维度，将文本和词语映射到一个低维的隐含语义空间。在该空间中，文本和词语可以用向量表示，通过计算向量之间的相似度来衡量它们之间的语义关联性。

7.2.1 LSI的基本思想和实现步骤

LSI的基本思想是通过奇异值分解（Singular Value Decomposition，SVD）对文本-词语矩阵进行分解。给定一个m×n的文本-词语矩阵，其中每行代表一个文本，每列代表一个词语，矩阵中的元素表示文本中词语的频次或权重。

实现LSI的基本步骤如下所示：

（1）构建文本-词语矩阵：将文本数据转换为一个文本-词语矩阵，其中每个元素表示对应文本中词语的频次或权重。

（2）对文本-词语矩阵进行SVD分解：对文本-词语矩阵进行SVD分解，将矩阵分解为三个矩阵的乘积：U × S × V^T，其中U和V是正交矩阵，S是对角矩阵。这个分解可以将文本-词语矩阵降维，得到一个低秩的近似表示。

（3）选择主题数：根据应用需求，选择保留的主题数。主题数决定了在隐含语义空间中表示文本和词语的维度。

（4）提取文本和词语的隐含语义表示：从SVD分解的结果中提取出文本和词语在隐含语义空间中的向量表示，这些向量可以用于计算文本之间的相似度或进行推荐。

（5）计算文本之间的相似度：根据文本在隐含语义空间中的向量表示，可以计算文本之间的相似度。常用的相似度计算方法包括余弦相似度等。

潜在语义索引（LSI）在推荐系统、信息检索和文本分析等领域有广泛应用。通过将文本映射到一个低维的隐含语义空间，LSI可以捕捉到文本之间的语义关联性，从而提供更准确和语义相关的分析和推理结果。

7.2.2 Python中的潜在语义索引实现

在Python程序中，可以使用第三方库gensim来实现潜在语义索引（Latent Semantic Indexing，LSI）算法。gensim是一个用于主题建模和文本处理的强大库，其中包含了实现LSI的功能。

下面是使用库gensim实现LSI算法的基本步骤：

（1）安装gensim库：使用如下pip命令安装gensim库，确保已安装Python和pip。

pip install gensim

（2）准备数据：将文本数据准备为一个文档集合，每个文档是一个字符串。

documents = ["文档1内容", "文档2内容", ...]

（3）文本预处理：对文档进行预处理，包括分词、去除停用词、词干化等操作。

from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import remove_stopwords, stem_text

def preprocess_text(text):
    # 分词
    tokens = simple_preprocess(text)
    # 去除停用词
    tokens = [token for token in tokens if token not in stop_words]
    # 词干化
    tokens = [stem_text(token) for token in tokens]
    return tokens

processed_documents = [preprocess_text(doc) for doc in documents]

（4）构建词袋模型：将文本转换为词袋模型表示，即每个文档用一个向量表示，向量的每个元素表示对应词语的频次。

from gensim import corpora
# 构建词典
dictionary = corpora.Dictionary(processed_documents)
# 构建词袋模型
corpus = [dictionary.doc2bow(doc) for doc in processed_documents]

（5）构建LSI模型：使用corpus构建LSI模型，并指定要保留的主题数。

from gensim.models import LsiModel
# 构建LSI模型
lsi_model = LsiModel(corpus, num_topics=10, id2word=dictionary)

（6）获取文档的LSI表示：将文档转换为LSI表示，即在隐含语义空间中的向量表示。

# 转换文档为LSI表示
lsi_vectors = lsi_model[corpus]

（7）进行相似度计算和推荐：使用LSI模型可以计算文档之间的相似度，并生成推荐结果。

from gensim import similarities
# 构建索引
index = similarities.MatrixSimilarity(lsi_vectors)
# 计算文档之间的相似度
sims = index[lsi_vectors]
# 获取文档之间的相似度排名
sorted_sims = sorted(enumerate(sims), key=lambda item: -item[1])

# 获取与文档i最相似的top_k个文档
top_k = 5
most_similar_documents = [documents[i] for i, _ in sorted_sims[:top_k]]

这样，通过以上步骤，就可以使用库gensim实现潜在语义索引（LSI）算法构建推荐系统。你可以根据实际需求调整LSI模型的参数，如主题数、文档相似度的计算方法等，以获得更好的推荐效果。请看下面的例子，功能是使用库gensim实现潜在语义索引（LSI）算法构建推荐系统。

源码路径：daima/7/qian.py

from gensim import corpora, models, similarities

# 自定义数据集
documents = [
    "I love watching movies",
    "I enjoy playing video games",
    "I like reading books",
    "I prefer outdoor activities",
    "I am a fan of music",
    "I enjoy cooking",
    "I like to travel",
    "I am interested in sports",
    "I love animals",
    "I enjoy photography"
]

# 分词处理
tokenized_documents = [document.lower().split() for document in documents]

# 创建词典
dictionary = corpora.Dictionary(tokenized_documents)

# 创建语料库
corpus = [dictionary.doc2bow(document) for document in tokenized_documents]

# 训练LSI模型
lsi_model = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

# 构建索引
index = similarities.MatrixSimilarity(lsi_model[corpus])

# 查询示例
query = "I love playing video games"

# 将查询文档转换为LSI向量
query_bow = dictionary.doc2bow(query.lower().split())
query_lsi = lsi_model[query_bow]

# 获取相似度得分
sims = index[query_lsi]

# 根据相似度得分排序推荐结果
results = sorted(enumerate(sims), key=lambda item: -item[1])

# 输出推荐结果
for result in results:
    doc_index, similarity = result
    print(f"Document: {documents[doc_index]} - Similarity Score: {similarity}")

在上述代码中，首先定义了一个自定义的文档集合。然后我们对文档进行分词处理，创建词典并构建语料库。接下来，我们使用gensim的LSI模型对语料库进行训练，并创建一个相似性索引。最后，提供了一个查询示例，并根据相似度得分对文档进行排序，输出推荐结果。执行后会输出：

Document: I enjoy cooking - Similarity Score: 0.9986604452133179
Document: I enjoy photography - Similarity Score: 0.9986604452133179
Document: I enjoy playing video games - Similarity Score: 0.9903920888900757
Document: I like reading books - Similarity Score: 0.9570443034172058
Document: I like to travel - Similarity Score: 0.9570443034172058
Document: I love watching movies - Similarity Score: 0.9496895670890808
Document: I love animals - Similarity Score: 0.9411097168922424
Document: I prefer outdoor activities - Similarity Score: 0.9357219934463501
Document: I am interested in sports - Similarity Score: 0.42875921726226807
Document: I am a fan of music - Similarity Score: 0.22005987167358398

请注意，这只是一个简单的例子，仅用于演示如何使用gensim库实现LSI算法构建推荐系统。在实际应用中，我们可能需要更多的数据预处理步骤、参数调整和优化来提高推荐的准确性和效果。

未完待续

码农三叔

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
（7-2）基于隐语义模型的推荐：潜在语义索引

潜在语义索引（Latent Semantic Indexing，LSI）是一种基于矩阵分解的潜在语义模型，用于在文本数据中捕捉潜在的语义关联性。LSI通过降低文本-词语矩阵的维度，将文本和词语映射到一个低维的隐含语义空间。在该空间中，文本和词语可以用向量表示，通过计算向量之间的相似度来衡量它们之间的语义关联性。
复制链接

扫一扫