电影推荐系统kaggle

一、推荐系统的时代

数据收集的快速增长带来了一个新的信息时代。数据正被用于创建更高效的系统,而这正是推荐系统发挥作用的地方。推荐系统是一种信息过滤系统,因为它们可以提高搜索结果的质量,并提供与搜索项目更相关或与用户的搜索历史更相关的项目。

它们用于预测用户对某个项目的评分或偏好。几乎每一家大型科技公司都以某种形式应用了它们:亚马逊用它来向客户推荐产品,YouTube用它来决定下一步在autoplay上播放哪个视频,Facebook用它来推荐喜欢的页面和关注的人。此外,像Netflix和Spotify这样的公司在很大程度上依赖其推荐引擎的有效性来实现其业务和成功。

在这个内核中,我们将使用TMDB5000电影数据集构建一个基线电影推荐系统。对于像我这样的新手来说,这个内核将在推荐系统中起到很好的基础作用,并将为您提供一些东西。

那我们走吧!

推荐系统基本上有三种类型:-

人口统计过滤——根据电影人气和/或类型,向每个用户提供一般性建议。该系统向具有相似人口统计特征的用户推荐相同的电影。由于每个用户都是不同的,这种方法被认为太简单了。这一体系背后的基本理念是,更受欢迎、更受好评的电影更容易受到普通观众的喜爱。

基于内容的过滤-他们建议基于特定项目的类似项目。该系统使用项目元数据,例如电影的类型、导演、描述、演员等,来提出这些建议。这些推荐系统背后的一般理念是,如果一个人喜欢某个特定的项目,他或她也会喜欢与之相似的项目。

协同过滤-此系统匹配具有相似兴趣的人,并基于此匹配提供建议。与基于内容的过滤器不同,协作过滤器不需要项目元数据。

二、加载数据

数据来源:Getting Started with a Movie Recommendation System | KaggleExplore and run machine learning code with Kaggle Notebooks | Using data from TMDB 5000 Movie Datasethttps://www.kaggle.com/ibtesama/getting-started-with-a-movie-recommendation-system/data

import pandas as pd 
import numpy as np 
df1=pd.read_csv('../input/tmdb-movie-metadata/tmdb_5000_credits.csv')
df2=pd.read_csv('../input/tmdb-movie-metadata/tmdb_5000_movies.csv')

第一个数据集包含以下功能:-

电影id-每部电影的唯一标识符。

演员-主角和配角的名字。

剧组-导演、编辑、作曲家、作家等的姓名。

第二个数据集具有以下功能:-

预算-制作电影的预算。

类型-电影、动作片、喜剧、惊悚片等的类型。

主页-电影主页的链接。

id-这实际上是第一个数据集中的电影id。

关键词-与电影相关的关键词或标签。

原创语言-电影制作时使用的语言。

原片名-翻译或改编前的电影片名。

概述-电影的简要描述。

流行度-指定电影流行度的数字量。

制片公司——电影的制片公司。

生产国-生产该产品的国家。

发布日期-发布的日期。

收入-电影产生的全球收入。

runtime—电影的运行时间(分钟)。

状态-“发布”或“传闻”。

标语-电影的标语。

片名——电影的片名。

投票平均-电影的平均收视率。

计票-收到的票数。

让我们将“id”列上的两个数据集连接起来

df1.columns = ['id','tittle','cast','crew']
df2= df2.merge(df1,on='id')

人口统计过滤-

在开始之前-

我们需要一个指标来评分或评价电影

计算每部电影的分数

对分数进行排序,并向用户推荐评级最好的电影。

我们可以用电影的平均收视率作为分数,但这样做是不够公平的,因为平均收视率为8.9且只有3票的电影不能被认为比平均收视率为7.8但只有40票的电影更好。因此,我将使用IMDB的加权评级(wr),如下所示:-

哪里

v是电影的票数;

m是图表中列出的最低票数;

R是电影的平均收视率;和

C是整个报告的平均投票数

我们已经有了v(投票计数)和R(投票平均数),C可以计算为

C= df2['vote_average'].mean()

因此,所有电影的平均评分在10分制下约为6。下一步是确定m的适当值,即图表中列出的最低投票数

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Kaggle电影数据集是一个实用的资源,旨在提供关于电影的详细信息和统计数据,供数据科学家、研究人员和电影爱好者使用。 这个数据集包含了许多关于电影的不同属性,比如电影的标题、导演、演员、类型、评分、票房等等。这些属性可以用来进行各种有趣的分析和研究。通过对这些数据进行分析,可以了解电影产业的趋势、观众的偏好和市场变化等信息。此外,这个数据集还有一些额外的特征,比如收入和成本等,可以用来进行财务分析或预测电影的商业成功。 在Kaggle电影数据集中,可以进行多种分析和可视化操作,例如: 1. 评估不同类型电影的受欢迎程度和收益情况,了解哪种类型的电影更受欢迎,哪种类型的电影更具商业价值。 2. 研究导演和演员之间的关系,通过分析他们的作品和评分情况,探讨不同导演和演员的成功程度。 3. 预测电影的票房表现,通过构建模型,利用属性数据来预测电影的商业成功度。 4. 比较不同国家和地区电影产业的发展情况,探讨哪个地区的电影市场更具潜力。 总的来说,Kaggle电影数据集是一个丰富和有趣的数据资源,可以用于各种研究和分析目的。通过对这个数据集的利用,可以深入了解电影产业、市场趋势和观众的偏好等信息,并为未来的电影制作和推广活动提供有价值的参考。 ### 回答2: Kaggle电影数据集是一个包含了大量有关电影的数据的在线平台。这个数据集是由来自世界各地的数据科学家和机器学习专家贡献的。它包含了各种各样的电影数据,如电影的评分、评论、票房收入、导演、演员等信息。 通过使用这个数据集,我们可以进行各种有趣的分析和预测。我们可以研究不同类型电影的受欢迎程度,并尝试预测一部电影的票房收入。我们还可以利用这个数据集来了解电影产业的发展趋势,例如随着时间的推移,电影的收入是否增加,不同类型电影的数量是否有变化等。 此外,Kaggle电影数据集还可以帮助我们更好地了解电影评论与评分之间的关系。我们可以通过分析这些数据,发现一些影响电影评分的因素,例如电影的类型、导演的知名度、演员的表演水平等。这些洞察可以帮助电影制片人和发行商更好地理解他们的受众,并在电影制作过程中做出更明智的决策。 总的来说,Kaggle电影数据集是一个丰富多样的资源,可以让我们更深入地了解电影产业。它为数据科学家和机器学习专家提供了一个研究和预测电影相关问题的平台,也促进了电影制片人和发行商在电影制作和营销方面做出更明智的决策。 ### 回答3: Kaggle电影数据集是一个在Kaggle平台上可用的开放数据集,其中包含了许多关于电影的数据。这个数据集是由Kaggle社区中的用户共享和整理的。 这个数据集包含了大量有关电影的信息,包括电影的标题、上映时间、导演、演员阵容、电影类型、制片国家和票房收入等。这些数据可以用于进行电影行业的研究和分析。 利用这个数据集,研究人员可以探索电影的受欢迎程度和票房表现之间的关系,研究不同类型电影的市场需求和观众口味。同时,可以利用这个数据集来比较不同导演和演员的表现,了解他们对电影的影响力。还可以通过这个数据集来分析不同制片国家电影产业的发展状况和票房表现。 对于电影制片方和市场营销团队来说,这个数据集也具有非常大的价值。他们可以利用这些数据来预测电影的票房表现,评估投资回报率,并制定相应的市场推广策略。此外,通过分析这个数据集,他们还可以了解观众对不同类型电影的喜好,以便更好地满足市场需求。 总之,Kaggle电影数据集是一个非常有价值的资源,可以用于电影行业的研究和分析,以及电影制片方和市场营销团队的决策支持。它提供了关于电影的丰富信息,可以帮助我们更好地了解电影市场的运作和观众的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值