国产烂片深度解秘

  1. 读取数据
    ①读取数据"moviedata.xlsx"
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
from bokeh.plotting import figure,show,output_file
from bokeh.models import ColumnDataSource,HoverTool

df=pd.read_excel(r'/Users/lihuilan/Desktop/moviedata.xlsx')
df=df[df['豆瓣评分']>0]
print('初步清洗后数据量为%i条' % len(df))
df.iloc[1]
# 读取数据
# 删除“豆瓣评分”小于等于0的值

初步清洗后数据量为2306条
在这里插入图片描述
② 查看“豆瓣评分”数据分布,绘制直方图、箱型图

# 查看豆瓣评分情况

fig = plt.figure(figsize = (10,6))
plt.subplots_adjust(hspace=0.2)
# 创建绘图空间

ax1 = fig.add_subplot(2,1,1)  
df['豆瓣评分'].plot.hist(stacked=True,bins=50,color = 'green',alpha=0.5,grid=True)
plt.ylim([0,150])
plt.title('豆瓣评分数据分布-直方图')
# 绘制直方图

ax2 = fig.add_subplot(2,1,2)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
df['豆瓣评分'].plot.box(vert=False, grid = True,color = color) 
plt.title('豆瓣评分数据分布-箱型图')
# 绘制箱型图

df['豆瓣评分'].describe()

在这里插入图片描述
在这里插入图片描述
③ 判断“豆瓣评”数据是否符合正态分布

from scipy import stats
# 导入相关模块

u = df['豆瓣评分'].mean()  # 计算均值
std = df['豆瓣评分'].std()  # 计算标准差
stats.kstest(df['豆瓣评分'], 'norm', (u, std))#使用ks检验来判断数据是否符合正态分布
# 这里p值大于0.05,为正态分布

# 结论
# 这里以样本数据上四分位数为烂片评判标准 → 4.3分

在这里插入图片描述
⑤ 筛选出烂片数据,并做排名,找到TOP20

data_lp = df[df['豆瓣评分']<4.3].reset_index()
print('数据整理后,得到烂片数据量为%i条' % len(data_lp))
# 筛选烂片数据

lp_top20 = data_lp[['电影名称','豆瓣评分','导演','主演']].sort_values(by = '豆瓣评分').iloc[:20].reset_index()
del lp_top20['index']
lp_top20
# 查看烂片top20

在这里插入图片描述
在这里插入图片描述
2. 什么题材的电影烂片最多?
① 按照“类型”字段分类,筛选不同电影属于什么题材

# 筛选出所有题材类型

typelst = []
for i in df[df['类型'].notnull()]['类型'].str.replace(' ','').str.split('/'):
    typelst.extend(i)
# 取出所有电影的“类型”,并整理成列表
# 注意这里要删除“类型”中的空格字符

typelst = list(set(typelst))  
print(typelst)
# 列表去重

在这里插入图片描述
② 整理数据,按照“题材”汇总,查看不同题材的烂片比例,并选取TOP20

# 创建函数,查看不同题材的烂片比例
# 这里要删除“类型”字段空值的数据

lst_type_lp = []
# 创建空字典、空列表

df_type = df[df['类型']
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Pandas是一个流行的Python数据处理库,可以帮助我们在数据清洗方面提供强大的功能和灵活性。而国产烂片则是指质量较低、受到观众吐槽的国内电影作品。我们可以通过使用Pandas对国产烂片的数据进行清洗和分析。 首先,我们需要收集国产烂片的数据,可以通过网络爬虫技术获取电影评分、票房收入以及观众评价等信息。将这些数据存储在Pandas的数据结构中,例如DataFrame,方便后续的分析操作。 在数据清洗方面,我们可以通过Pandas的功能,对数据进行去重、缺失值处理和异常值检测等操作。通过使用`drop_duplicates()`函数,我们可以去除重复的数据,以确保数据的唯一性。然后可以使用`fillna()`函数来填充缺失值,使得数据更加完整和可靠。最后,我们可以使用一些统计方法,例如`describe()`和`quantile()`函数,来检测和处理异常值,以保证数据的准确性和可信度。 接下来,我们可以使用Pandas的数据分析功能来对国产烂片的数据进行统计和可视化分析。通过使用`groupby()`函数,我们可以按照不同的特征进行分组,例如导演、演员、题材等,然后进行计数、求和、平均值等统计操作。使用`plot()`函数可以生成各种类型的图表,例如柱状图、折线图、饼图等,从而直观地展示国产烂片的特征和趋势。 最后,我们可以根据数据分析的结果,对国产烂片进行更深入的问题研究和解决方案提出。根据观众评价的数据,分析烂片的主要问题,例如剧情、演技等方面的不足,以便电影制片方进一步改进和提高电影质量。此外,还可以通过对烂片票房收入的统计,分析观众对烂片的接受程度,从而研究烂片对电影市场的影响和相关策略。 综上所述,Pandas作为一个强大的数据处理库,可以帮助我们清洗和分析国产烂片的数据,为进一步研究和解决烂片问题提供支持和指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值