要求
1.四个变量中每个变量的表格与图形汇总,接着根据每个汇总告诉我们有关电影业的情况。
2.探究票房总收入与周末首映票房收入之间的散点图,并讨论。
3.探究票房总收入与剧院数之间的散点图,并讨论。
4.探究票房总收入与在放映周之间的散点图,并讨论。
Python实现
1.四个变量中每个变量的表格与图形汇总,接着根据每个汇总告诉我们有关电影业的情况。
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 数据读取与概览
data = pd.read_csv('F:\DataAnalysis\StatisticForBusinessAndEconomics\Movie\\2011Movies.csv')
data.head()
#查看数据的描述性统计
data.describe()
由于剧院数的数据类型不是整数型,所以上面结果中没有统计到该列的数据。
#首映票房的条形图
bin=[0,10,20,30,40,50,60,70,80,90,100,110,120,130,140,150,160,170]
data['GroupbyOpening']