原文链接:https://tecdat.cn/?p=41214
分析师:Zhiheng Lin
在数字时代,电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。本专题合集聚焦印度电影市场,通过IMDb数据集(IMDb Movies Dataset)的深入分析,揭示其发展脉络与潜在规律(点击文末“阅读原文”获取完整代码、数据、文档)。
视频
专题从数据科学家视角出发,结合Python数据分析工具(如Pandas、Seaborn、PyEcharts)与统计模型(如AR自相关分析),系统探讨印度电影的类型分布、评分影响因素及市场趋势。研究发现,印度电影市场呈现剧情片主导、演员资源集中化等特征,并创新性地提出基于时间序列模型的市场预测方法。本专题合集已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。
分析基本思路展示:
一、研究背景与数据来源
1.1 印度电影市场的崛起
近年来,印度电影以《少年派的奇幻漂流》等作品为代表,逐渐打破欧美电影垄断格局。与成熟的欧美、国产电影分析相比,印度电影市场的研究仍存在空白。本研究通过IMDb数据集(包含5,659部电影的10项属性),探索其类型偏好、评分机制及市场演变规律。
1.2 数据选择与预处理
# 核心库导入
import pandas as pd
import seaborn as sns
# 数据载入
data\_train = pd.read\_csv('movies_data.csv')
print('样本规模:',data_train.shape)
# 异常值处理
data\_clean = data\_train\[(data\_train\['Duration'\]<250) & (data\_train\['Votes'\]<10000)\].copy()
数据包含电影名称、年份、时长、类型、评分、参评人数、导演及演员信息。预处理步骤包括:
填充缺失值(
fillna(-1)
)删除异常值(时长>250分钟或参评人数>10,000)
二、基础属性可视化分析
2.1 电影时长与年份分布
通过核密度图发现,印度电影时长集中于110-150分钟(图1),符合大众观影习惯。年份分布显示,2000年后电影产量显著增长(图2),2015年后占比超30%,反映印度电影产业的现代化进程。
plt.subplot(2,2,4)
# 为显示清晰,把显示参评人数大于等于2000的部分
votes\_data = train\_data.drop(train\_data\[(train\_data\['Votes'\] > 2000)\].index)
sns.distplot(votes_data\['Votes'\], color="#31BEFA")
plt.title('电影的参评人数分布')
plt.xlabel('参评人数')
图1 电影时长分布
colors = \[plt.cm.Spectral(i/float(len(labels\_2))) for i in range(len(labels\_2))\]
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes\_2, label=labels\_2, color=colors, alpha=.8)
plt.title('电影年份树状图')
plt.axis('off')
图2 年份与产量趋势
点击标题查阅往期内容
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
左右滑动查看更多
01
02
03
04
2.2 类型偏好与市场热度
类型分析表明,剧情片(Drama)占比最高(3,796部),其次为爱情片(Romance)与动作片(Action)。词云图进一步验证剧情片的主导地位(图3)。参评人数分布显示,超60%电影的参评人数低于100,表明多数影片知名度有限。
图3 类型词云图
三、市场趋势与关键影响因素
3.1 时间序列分析
基于AR(2)模型发现,电影产量与年份呈显著正相关(图4),预测未来仍将保持增长。不同类型的时间演变显示,剧情片始终占据主导,爱情片在2000年前更受欢迎,动作片则在1980-2000年间达到高峰(图5)。
图4 年份与产量自相关分析
图5 类型随年份变化趋势
3.2 评分与热度的驱动因素
热图分析显示,评分(Rating)与参评人数(Votes)呈正相关(r=0.32),而年份与评分呈负相关(r=-0.18)。散点图进一步验证,参评人数越多的电影评分越高(图6),表明口碑对热度具有正向反馈。
图6 评分与参评人数关系
四、创新视角:近五年市场动态
4.1 热门类型与创作团队
近五年数据显示,体育片(Sport)与传记片(Biography)热度上升,参评人数均值超1,500(图7)。导演Shashank Khaitan与演员Dilip Mestry成为新兴代表,其作品参评人数显著高于行业平均(图8-9)。
图7 近五年热门类型
图8 近五年热门导演
图9 近五年热门演员
4.2 时长与评分的非线性关系
研究发现,时长在120-150分钟的电影评分最高(均值6.8),过长或过短均可能降低观影体验。这一结论为电影创作提供了量化参考。
五、结论与建议
本研究揭示了印度电影市场的三大特征:
类型集中化:剧情片主导,但体育、传记等新兴类型潜力显著。
资源垄断性:头部导演与演员占据超50%市场份额。
口碑驱动性:高评分电影更易获得热度,形成良性循环。
建议:
导演可尝试结合剧情与体育元素,开拓细分市场。
投资者应关注时长控制(120-150分钟)与演员选择(如Dilip Mestry等新兴明星)。
未来研究可引入自然语言处理(NLP)分析电影评论情感,深化用户画像。
参考文献
[1] Persson K. Predicting movie ratings: A comparative study on random forests and support vector machines. 2015.
[2] 简悦等. 基于Python的豆瓣电影数据爬取与分析. 电脑知识与技术, 2020.
[3] 程纯. 电影评分影响因素的特征工程分析. 现代电影技术, 2020.
关于分析师
在此对 Zhiheng Lin 对本文所作的贡献表示诚挚感谢,他在数据科学与大数据技术专业完成了学士学位,专注数据科学领域。擅长 Python、R 语言、数据采集、数据分析。
本文中分析的完整数据、代码、文档分享到会员群,扫描下面二维码即可加群!
资料获取
在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。
点击文末“阅读原文”
获取完整代码、数据、文档。
本文选自《Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码》。
点击标题查阅往期内容
数据分享|R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言建立和可视化混合效应模型mixed effect model
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据