豆瓣短评大数据分析:探索用户观影趋势与情感倾向
在本文中,我们将结合Python编程和大数据分析的技术,对豆瓣短评数据进行探索性分析,以洞察用户的地域分布、评分偏好以及对影片的情感倾向。
1. 评论者IP属地分布分析
我们首先利用Python的Pandas库加载豆瓣短评数据,并统计不同IP属地的评论数量。接下来,我们使用Matplotlib库绘制饼图,展示前十个IP属地的评论数量占比。
import pandas as pd
import matplotlib.pyplot as plt
# 加载豆瓣短评数据
data = pd.read_csv('豆瓣短评.csv')
# 统计不同IP属地的评论数量
ip_counts = data['评论者IP属地'].value_counts()
# 选择前10个IP属地进行绘制
top_10_ip = ip_counts.head(10)
# 绘制饼图
plt.figure(figsize=(8, 8))
plt.rcParams['font.family'] = 'Arial Unicode MS'
plt.pie(top_10_ip, labels=top_10_ip.index, autopct='%1.1f%%', startangle=140)
plt.title('评论者IP属地分布(前10)')
plt.axis('equal')
plt.show()
import pandas as pd
import matplotlib.pyplot as plt
# 加载CSV文件数据到DataFrame
data = pd