python根据词向量计算相似度_文章推荐系统 | 五、计算文章相似度

最新推荐文章于 2024-07-30 08:40:58 发布

weixin_39683176

最新推荐文章于 2024-07-30 08:40:58 发布

阅读量1.3k

点赞数 2

文章标签： python根据词向量计算相似度

本文介绍如何利用Python计算文章的词向量，首先分词处理历史文章，训练Word2Vec模型，然后计算文章词向量并存储到Hive。接着，通过词向量计算文章相似度，探讨了聚类和局部敏感哈希方法，最后展示了存储相似度到HBase的过程。

摘要由CSDN通过智能技术生成

在上篇文章中，我们已经完成了离线文章画像的构建，接下来，我们要为相似文章推荐做准备，那就是计算文章之间的相似度。首先，我们要计算出文章的词向量，然后利用文章的词向量来计算文章的相似度。

计算文章词向量

我们可以通过大量的历史文章数据，训练文章中每个词的词向量，由于文章数据过多，通常是分频道进行词向量训练，即每个频道训练一个词向量模型，我们包括的频道如下所示

channel_info = {

1: "html",

2: "开发者资讯",

3: "ios",

4: "c++",

5: "android",

6: "css",

7: "数据库",

8: "区块链",

9: "go",

10: "产品",

11: "后端",

12: "linux",

13: "人工智能",

14: "php",

15: "javascript",

16: "架构",

17: "前端",

18: "python",

19: "java",

20: "算法",

21: "面试",

22: "科技动态",

23: "js",

24: "设计",

25: "数码产品",

}

接下来，分别对各自频道内的文章进行分词处理，这里先选取 18 号频道内的所有文章，进行分词处理

spark.sql("use article")

article_data = spark.sql("select * from article_data where channel_id=18")

words_df = article_data.rdd.mapPartitions(segmentation).toDF(['article_id', 'channel_id', 'words'])

def segmentation(partition):

import os

import re

import jieba

import jieba.analyse

import jieba.posseg as pseg

import codecs

abspath = "/root/words"

# 结巴加载用户词典

userDict_path = os.path.join(abspath, "ITKeywords.txt")

jieba.load_userdict(userDict_path)

# 停用词文本

stopwords_path = os.path.join(abspath, "stopwords.txt")

def get_stopwords_list():

"""返回stopwords列表"""

stopwords_list = [i.strip() for i in codecs.open(stopwords_path).readlines()]

return stopwords_list

# 所有的停用词列表

stopwords_list = get_stopwords_list()

# 分词

def cut_sentence(sentence):

"""对切割之后的词语进行过滤，去除停用词，保留名词，英文和自定义词库中的词，长度大于2的词"""

# eg:[pair('今天', 't'), pair('有', 'd'), pair('雾', 'n'), pair('霾', 'g'

最低0.47元/天解锁文章

weixin_39683176

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。