【火炉炼AI】机器学习033-构建电影推荐系统

【火炉炼AI】机器学习033-构建电影推荐系统

(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )

电影推荐系统内部最关键的部件是推荐引擎,和汽车的发动机一样,推荐引擎的作用是产生数据动力,提供数据计算方案。从本质上说,推荐引擎时一个能预测用户兴趣点的模型。对于不同的具体项目要求,推荐引擎也是不一样的,本文主要介绍专门用于电影推荐系统的推荐引擎构建方法。

推荐引擎非常重要,比如在电商网站中,经常有庞大的商品目录,而用户不太可能查找所有的相关内容,这时候就需要推荐引擎来构建合适的推荐系统,将用户可能感兴趣的商品推荐到用户页面。我们经常在购物中看到,你点击了笔记本电脑的页面,系统会给你推荐鼠标,键盘等商品,其内部就是使用了推荐引擎。


1. 寻找数据集中的相似用户

推荐引擎的一个非常重要的任务是寻找相似的用户,这样,为一位用户生成的推荐信息也可以推送给与之相似的其他用户。

下面用代码来查找与特定用户相似的其他用户,用到了上一篇文章中的Pearson 相关系数计算函数。下面代码的思路是:首先判断user是否存在dataset中,然后计算user对所有其他user的相关系数,放置到一个list中,然后再对这个list进行逆序排列,取最前面的K个用户,即可找到与user最相似的K个用户。

def find_similar_users(dataset, user, user_num=3):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    # 对于所有用户,计算其与user的相似度,此处使用Pearson相关性
    scores=np.array([[other_user,pearson_score(dataset,user,other_user)] for 
                         other_user in dataset if other_user!=user])
    # 相关性都存放在scores这个二维矩阵中,故而可以通过排序来寻找相似用户
    scores_sorted=np.argsort(scores[:,1])[::-1] # 先排序取坐标,再逆序
    # 获取最前面的user_num个相似用户
    top_users=scores_sorted[:user_num]
    return scores[top_users] # 返回这些user的信息

通过导入movie_ratings数据后,计算与John Carson最相似的4个用户,如下:

# 使用电影数据来寻找相似用户
import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
similar_users=find_similar_users(dataset, user, 4)
print('Users similar to {}---->>>'.format(user))
print('User\t\t\tSimilarity Score\n')
for item in similar_users:
    print('{}\t\t{}'.format(item[0],round(float(item[1]),3)))

-------------------------------------输---------出--------------------------------

Users similar to John Carson---->>>
User Similarity Score

Michael Henry 0.991
Alex Roberts 0.747
Melissa Jones 0.594
Jillian Hobart 0.567

--------------------------------------------完-------------------------------------


2. 创建电影推荐引擎

假设我们现在有多个用户对某几部电影的评价分数,那么怎么构建一个电影推荐引擎?给那些已经看过一部分电影的用户推荐其他没有看过的但是很相关的电影?

这些电影评分数据都存放在movie_ratings.json文件中,这个文件的第一个层是用户名,第二层是电影名称和该用户给该电影的评分。给用户A推荐电影的内在逻辑是,先找出与用户A相似度比较高的多个用户,然后找出这些相似用户已经评分过但是用户A没有评分的电影集合,这些电影表示用户A没有看过但是其他相似用户看过,我们推荐的电影就从这个电影集合中选取,那么怎么选取了?需要构建一个选取标准,此时我们可以计算电影推荐分数,该分数用相似度和电影评价分数相乘得到。可以认为,相似度越高的用户,其看过的电影越推荐,这些用户评分越高的电影,表示质量越高,越要推荐给用户A.

基于以上逻辑,编写的代码如下:

# 创建电影推荐引擎
def get_recommendations(dataset,user):
    if user not in dataset: # 首先保证user在dataset中
        raise TypeError('User {} not in dataset!'.format(user))
    
    total_scores={} # 存放的key为电影名称,value为对该电影的评价乘以相似度
    similarity_sums={} # 存放的key为电影名称,value为相似度
    for other_user in dataset:
        if other_user ==user: continue  # 确保是其他用户而非自身
        similarity_score=pearson_score(dataset,user, other_user) 
#         print('other user: ', other_user, 'similarity: ', similarity_score)
        if similarity_score<=0: continue # 如果相似度太小则忽略
        
        # 找到还未被该用户评分,但是却被other_user评分过的电影
        # 这部分电影表示相似的other_ser已经看过但是user没有看过的电影,
        # 推荐的电影肯定来自于这部分
        user_not_rating_movies=[]
        for movie in dataset[other_user]: # other_user评分过的电影
#             if movie not in dataset[user] or dataset[user][movie]==0: 
            if movie not in dataset[user]: 

                # 但是user没有评分过,或者user评分为0(是不是系统认为没有评分那评分就是0))
                user_not_rating_movies.append(movie)
#         print(user_not_rating_movies)
        # 计算这些user没有评分过的电影的推荐分数,
        # 推荐分数此处用该电影的评价乘以相似度表示
        for movie in user_not_rating_movies:
            recommend_score=dataset[other_user][movie]*similarity_score
            total_scores.update({movie: recommend_score})
            similarity_sums.update({movie: similarity_score})
#         print('other user: ', other_user, 'total_scores: ', total_scores)
    # 判断total_scores,如果推荐的总数为0,表示所有电影都被user评价过,则不推荐
    if len(total_scores) ==0: return [[0,'No Recommendations']]
    
    # 计算每个电影的推荐等级
    movie_ranks=np.array([[rec_score/similarity_sums[movie],movie] for 
                         movie, rec_score in total_scores.items()])
    # 对第一列进行逆序排列
    movie_ranks_desc=movie_ranks[np.argsort(movie_ranks[:,0])[::-1]]
#     print(movie_ranks_desc)
    return movie_ranks_desc

最后计算一下几个用户的推荐的电影列表,如下:

import json
with open("E:\PyProjects\DataSet\FireAI\movie_ratings.json",'r') as file:
    dataset=json.loads(file.read())

user='John Carson'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

user='Michael Henry'
movie_ranks=get_recommendations(dataset,user)
print('Recommended movies to {}---->>>'.format(user))
for idx, recommend in enumerate(movie_ranks):
    print('{}: {}-->recommend score: {}'.format(idx, recommend[1], recommend[0]))

-------------------------------------输---------出--------------------------------

Recommended movies to John Carson---->>>
0: No Recommendations–>recommend score: 0
Recommended movies to Michael Henry---->>>
0: Jerry Maguire–>recommend score: 3.0
1: Inception–>recommend score: 3.0
2: Anger Management–>recommend score: 2.0

--------------------------------------------完-------------------------------------

########################小**********结###############################

1,构建电影推荐系统一般有几个步骤:先找出相似用户,然后找出相似用户看过的电影而用户A没有看过的电影,最后对这些电影建立一种推荐分数,其分数越高的越值得推荐,最后对这些分数逆序排列,即可得到推荐列表。

2,关键是要搞清楚推荐逻辑,并建立推荐算法,这些算法可能会随实际应用场景不同而不同。

#################################################################


注:本部分代码已经全部上传到(我的github)上,欢迎下载。

参考资料:

1, Python机器学习经典实例,Prateek Joshi著,陶俊杰,陈小莉译

项目完整可用,配合压缩包内数据库可直接运行使用。 eclipse+mysql5.7+jdk1.8 功能:推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的,或是基于用户所在的社会或社团环境。 根据如何抽取参考特征,我们可以将推荐引擎分为以下四大类: • 基于内容的推荐引擎:它将计算得到并推荐给用户一些与该用户已选择过的项目相似的内容。例如,当你在网上购书时,你总是购买与历史相关的书籍,那么基于内容的推荐引擎就会给你推荐一些热门的历史方面的书籍。 • 基于协同过滤的推荐引擎:它将推荐给用户一些与该用户品味相似的其他用户喜欢的内容。例如,当你在网上买衣服时,基于协同过滤的推荐引擎会根据你的历史购买记录或是浏览记录,分析出你的穿衣品位,并找到与你品味相似的一些用户,将他们浏览和购买的衣服推荐给你。 • 基于关联规则的推荐引擎:它将推荐给用户一些采用关联规则发现算法计算出的内容。关联规则的发现算法有很多,如 Apriori、AprioriTid、DHP、FP-tree 等。 • 混合推荐引擎:结合以上各种,得到一个更加全面的推荐效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值