2018电影票房分析-谁才是票房之王

最新推荐文章于 2024-05-03 11:07:56 发布

weixin_34237596

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量2.2k

点赞数

文章标签： python 数据库 json

原文链接：https://my.oschina.net/crossin/blog/3035922

版权

2019独角兽企业重金招聘Python工程师标准>>>

去年末的时候，我招收了新的“实训生”。本文是其中一位 @齐大圣 同学在实训两个月时完成的项目案例。（码上行动群里同学应该都看过这个名字，现在也是助教之一。）项目最初的想法是，从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息，然后做一些数据分析和可视化展示。这样一个项目，除了需要对 python 基本语法和数据结构的掌握之外，还涉及到网页分析、爬虫、文本解析、数据库存储、数据处理、数据分析、数据可视化，并且需要对一个完整项目有整体的模块设计，对于编程学习者来说是从入门到进阶的一个很好案例。经常跟我说学了基础不知道做什么项目的同学们，别光顾着看热闹，回头自己也动手做一做。代码已上传，获取见文末。

项目之初，我们的想法主要是对去年国内上映电影的票房、评分进行一下排行，然后按不同类型对比下，什么片更受欢迎，什么片更赚钱。后来开发过程中，正值《流浪地球》大卖，吴京成为首位国内票房破百亿的演员。于是我们突发奇想，来看一看谁是去年单年累积票房最高的演员。是《我不是药神》的徐峥，还是《唐人街探案2》的王宝强（他俩还合演了《一出好戏》），又或者是《红海行动》中的某位？

在往下看之前，你也可以大胆猜一下。但我打赌你是猜不到的。如果没猜对，记得帮忙转发点赞。

基本数据情况：

票房数据来自中国票房网（http://cbooo.cn）
评分数据来自豆瓣电影（http://movie.douban.com）、猫眼（http://maoyan.com）、时光网（http://mtime.com）、IMDB（http://imdb.com）
导演、演员信息来自豆瓣电影
共 522 部电影，4723 位影人
由于从几个不同网站抓取数据，有些名称会不一致，或者出现部分数据缺失的情况。因此这个数据并不是绝对完整的，但不影响整体结论
影片所属类型没有严格定义，且会有多个类型。实际选取方式我们在下面会有具体说明。

电影总排行：

这个排名大家都不陌生，没啥好多说的，好玩的在后面。

票房分布

我们将所有电影按评分和票房做成散点分布图，得到上述图片。此图是动态可交互的，这里我截几张有代表性的（点击图片后可放大）：

依次是动作、喜剧、剧情、动画四类电影分布。粗略一看，动作片是比较受市场欢迎的，毕竟选择去观看大屏幕，很大程度也是为了享受特效和视听感受。喜剧和剧情也还不错，但高票房的动画片就很少了。

类型片

这张图是不同影片类型的数量和评分情况。剧情、喜剧、动作是三大主流类型。

从评分上看，动画片最高，我很早就发现了这个现象，我觉得可能是因为动画片类型明确，会观看并评价的人本身对其接受度高，而不喜欢的人压根儿就不会去看。剧情片整体评分也不错，可见能把一个故事说好，观众就挺满意了。爱情片、惊悚片则是一向是烂片的高发地带。

说明下：这里的类型是重复计算的，一部片会既是动作片，又是喜剧片。另外由于豆瓣上一些电影评分数量太少而不显示，所以这里的电影数量会和票房数量有所差异。

从票房上看，动作片不管是总量还是平均，都很强势。值得注意的是科幻片，虽然一般认为这是个小众类型，但与广义科幻沾边的影片平均票房却不低（这里面Marvel贡献了不少），今年的小破球更是创造了新的纪录。战争片则是被《红海行动》一片之力拉高了平均值。

月度票房

将类型片的票房按月划分，得到了这张图。春节档无疑是一年最抢钱的档期，而喜剧片又是此档期的绝对主力。暑期档则是另一个票房小高峰。动作片一年四季都不错。

这里的月度划分是按首映日期，所以会有一些提前，比如国庆档的票房都记在了九月份。

以上面几组数据来看，如果哪位土豪读者想投资拍电影，选择动作片是比较保险的，记得要把故事说好，最好再加点科幻元素，在春节前上映。

评分对比

这里做了 IMDB、时光网、猫眼分别和豆瓣评分的关系对比。

按理说，如果两个网站的评分基本一致的话，这些点应当分布在对角线上。IMDB、时光网和豆瓣还是差不多的（豆瓣其实是5星制，最低2分）。再细分一下，时光网和豆瓣的相关性要比 IMDB 更大（文化差异），好片比烂片的相关性更大（好片都说好，烂片则口味不同）。

有意思的是猫眼（最右侧图），它的评分普遍要比豆瓣高，相信很多人都有直观感受。当然这也有它的原因：猫眼买了票的人才会评分，那一般总归会选个自己爱看的吧。

【彩蛋】图上右下角有个令人瞩目的孤点，这部电影是个例外，它猫眼评分2.9，豆瓣却有6.9，你知道是哪部吗？（可以留言猜一下，我待会儿在留言中公布答案）如果你了解此片背后的故事，定会一拍大腿恍然大悟。

演员

好了，到了公布最终结果的时候。

第一名：王成思

参演电影：《西红柿首富》25亿；《唐人街探案2》34亿；《李茶的姑妈》6亿

这……是谁啊，演的谁……

斯坦·李凭借各种客串，位列第3。而另一位能在Marvel、DC两道均能跑龙套的约翰·盖蒂尔，也跻身前十，同样也不知道他演的角色……

怎么样，有没有出乎你的意料？现在你可以拿这个去问别人了

所有图表在网页上都是动态可交互的，访问地址请在我们公*号（Crossin的编程教室）里回复关键字票房

代码也已上传，并附带有说明文档，大致说明了实现思路、文件说明、技术细节。同样回复关键字票房

如果你想要跟着实现或运行相关代码，我这里再简单说几点。

项目整体思路：

通过中国票房网获得2018年大陆上映电影和每部电影票房数据
根据已有的票房数据，通过豆瓣 api 和详细页面，获得每部电影的导演，演员和豆瓣评分等详细数据
分别通过猫眼、时光网和 imdb，获取这三个网站的电影评分数据
新建影人条目，利用豆瓣获得的影人数据，对2018年每个演员年参演电影进行统计
根据已有数据作图，分析2018年电影票房排名、不同网站评分差异、电影票房-评分关系等

开发环境及所需库：

python 3.6（3.5以上版本应该都没啥问题）
jupyter notebook - 这个之前介绍过多次，数据分析好帮手
requests - 网页抓取
bs4 - 网页文本分析
pymongo - 本项目用了 mongodb 数据库
numpy - 数据计算必备
pyecharts - 绘图工具包 ECharts 的封装

有几点值得注意的是：

因为豆瓣的搜索结果是模糊匹配，根据电影名会搜出多部电影，因此匹配豆瓣信息时增加了人工干预的步骤。这部分代码可以再优化。
项目使用 MongoDB 作为数据存储，这不是必须的，你可以把这部分代码改成文件保存。另外如果你只是想做数据分析，也可以拿我们抓取好导出的数据，免除抓取之苦。（附带在项目中，仅供学习，请勿商用，否则后果自负）

部分代码（仅演示，完整代码见项目仓库）：

抓取并保存

client = pymongo.MongoClient()
db = client.chinamovies # 获取或新建名为 chinamovies 的 database
collections = db.movies # 获取或者新建了一个表
url_origin = 'http://www.cbooo.cn/Mdata/getMdata_movie?area={area}&type=0&year=2018&initial=%E5%85%A8%E9%83%A8&pIndex={page}'
url = url_origin.format(area=area, page=page)
req = requests.get(url, headers=headers)
data = req.json()
collections.insert_many(data['pData'])

获取豆瓣信息

url_api = 'https://api.douban.com/v2/movie/search?q={}'.format(moviename)
req = requests.get(url_api, headers=headers)
data_total = req.json()['subjects']
if not data_total:
    print('你搜索的不存在：', moviename)
else:
    print(data_total[0])

计算影人参演票房总和

for i in col_casts.find():
    total_box = 0
    for j in i['movie_id']:
        movie = collections_detail.find_one({'id': j})
        if movie['boxoffice']:
            total_box += int(movie['boxoffice'])
    col_casts.update_one({'_id': i['_id']}, {'$set': {'total_box': total_box}}, upsert=True)

输出票房/评分分布散点图

scatter = Scatter("电影评分-票房")
total_num = 0
for i in genre:
    total_num += len(genre[i]['rate'])
    scatter.add(i, genre[i]['boxoffice'], genre[i]['rate'], **other_setting, extra_name=genre[i]['title'],
                xaxis_name='票房（亿）', yaxis_name='评分', yaxis_name_gap=20,yaxis_min=2, symbol_size=5,
                label_formatter='{c}', is_label_emphasis=True, is_toolbox_show=False)
scatter.render('电影评分-票房.html')

查看交互图表和代码地址，请在公*号（Crossin的编程教室）回复关键字票房

════

其他文章及回答：

学编程：如何自学Python | 新手引导 | 一图学Python

开发案例：智能防挡弹幕 | 红包提醒 | 流浪地球

欢迎搜索及关注：Crossin的编程教室