python亲和性分析法推荐电影论文_亲和性分析——推荐电影

最新推荐文章于 2023-03-07 09:38:11 发布

weixin_39665060

最新推荐文章于 2023-03-07 09:38:11 发布

阅读量247

点赞数

文章标签： python亲和性分析法推荐电影论文

本文链接：https://blog.csdn.net/weixin_39665060/article/details/111433281

版权

这段代码实现了一个基于用户评价的推荐系统。首先，从数据集中选择了前200位用户的偏好评价，然后计算每部电影被多少人喜欢。接着，使用Apriori算法找到频繁项集，即共同被多个用户喜欢的电影组合，并逐步增加项集的长度。最终，生成了不同长度的频繁项集，并用于生成推荐规则。

摘要由CSDN通过智能技术生成

#选择训练集200

ratings = all_ratings[all_ratings[‘UserID‘].isin(range(200))]#选出喜欢的数据

favorable_ratings = ratings[ratings[‘Favorable‘]]#将数记录成一个用户对应多部喜欢的电影

favorable_reviews_by_users = dict((k, frozenset(v.values)) for k, v in favorable_ratings.groupby("UserID")["MovieID"])#print(favorable_reviews_by_users)

len(favorable_reviews_by_users)#得到最后训练集的人数 199

#生成一个电影有多少人喜欢

num_favorable_by_movie = ratings[["MovieID", "Favorable"]].groupby("MovieID").sum()#print(num_favorable_by_movie)

num_favorable_by_movie.sort_values("Favorable", ascending=False)[:5]from collections importdefaultdictdeffind_frequent_itemsets(favorable_reviews_by_users, k_1_itemsets, min_support):

counts=defaultdict(int)for user, reviews infavorable_reviews_by_users.items():for itemset ink_1_itemsets.keys():ifitemset.issubset(reviews):for other_reviewed_movie in reviews -itemset:#用到了集合的特性 | 表示取与解决了重复的问题(集合有去重的功能)

current_superset = itemset |frozenset((other_reviewed_movie,))

counts[current_superset]+= 1

return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >=min_support])importsys

frequent_itemsets={}

min_support= 50

#print(type(frequent_itemsets)) dict#k=1

frequent_itemsets[1] = dict((frozenset((movie_id,)), row["Favorable"])for movie_id, row innum_favorable_by_movie.iterrows()if row["Favorable"] >min_support)#print(frequent_itemsets)#exit()

print("There are {} movies with more than {} favorable reviews".format(len(frequent_itemsets[1]), min_support))

sys.stdout.flush()

# 通过循环，求出了所有情况for k in range(2, 20):#k代表每个数据集中值得推荐电影总共得个数，看看结果就懂了

#得到结果

cur_frequent_itemsets = find_frequent_itemsets(favorable_reviews_by_users, frequent_itemsets[k-1],

min_support)if len(cur_frequent_itemsets) ==0:print("Did not find any frequent itemsets of length {}".format(k))

sys.stdout.flush()break

else:print("I found {} frequent itemsets of length {}".format(len(cur_frequent_itemsets), k))#print(cur_frequent_itemsets)

sys.stdout.flush()

frequent_itemsets[k]=cur_frequent_itemsets#去除个数为1 的，这样的数据没办法推荐

del frequent_itemsets[1]print(frequent_itemsets[9])

There are 20 movies with more than 50 favorable reviews