一、项目背景
《哪吒2》作为国产动画电影的续作,凭借前作积累的口碑与IP效应,上映后引发广泛讨论。为深入理解观众对影片的真实反馈,挖掘市场评价中的关键信息,本项目基于电影评论数据集,从评分、情感倾向、地域分布、时间趋势等多维度展开分析,旨在为电影制作方、宣发团队及行业研究者提供数据驱动的决策支持。
二、分析目标
- 观众评价洞察:解析评分分布与情感倾向,识别影片的核心优势与争议点。
- 用户行为分析:探索评论时间与地域分布规律,揭示观众参与度与市场热度。
- 内容优化建议:结合高频关键词与负面反馈,提出剧本、制作及宣发改进方向。
三、方法与工具
- 数据预处理:使用Python(Pandas、jieba)清洗数据,提取日期、地域信息,并进行情感分析(TextBlob)。
- 关键词提取:通过分词与词频统计,提炼评论中的核心议题(如“特效”“低俗”“反抗”)。
- 可视化呈现:借助Tableau构建交互式仪表板,动态展示评分分布、地域热度、时间趋势及情感占比。
四、数据处理
1. 数据预处理¶
import pandas as pd
import jieba
from textblob import TextBlob
from collections import Counter
# 读取数据(假设数据已保存为 CSV 文件)
df = pd.read_excel("/Users/mac/Downloads/《哪吒2》电影评论数据.xlsx")
# 处理评分中的“无评分”条目(假设填充为 0 或删除)
df["评分"] = df["评分"].replace("无评分", 0).astype(int)
# 过滤异常值(评分应为0-5)
df["评分"] = df["评分"].clip(0, 5) # 强制评分在0-5范围内
# 查看评分字段基本信息
print("评分字段统计信息:\n", df["评分"].describe())
print("\n评分唯一值:", df["评分"].unique())
# 清洗用户地址(标准化省份名称)
# 定义省/市名称映射(覆盖数据中出现的所有地址)
province_mapping = {
"北京": "北京市&#