大纲
内容简介:
对猫眼电影网站的Top100榜单进行数据分析,寻找好电影中隐藏的规律和价值。
源数据:
一份从猫眼电影网站爬取的csv文件。
字段:电影名,主演,上映时间及地区,平均,时长。
记录:100个按评价排序的好电影
部分截图:
相关工具:
excel、python
分析内容:
分析1: Top100电影地区分布
分析2: Top100电影上映年份分布
分析3: Top100电影风格分布
分析4:铸就经典!谁是好电影保障?
正文
01导入库、整体风格设置=
说明:
- 导入numpy、和pandas用作数据分析基本库。
- 导入matplotlib和seaborn用作可视化。
- 最后三行,使中文内容能够友好的展示出来。
02导入数据
- pd.read_csv导入数据
2.df.info()得数据不存在缺失值
03数据处理
1.将’上映时间及地区’列 分成 ‘上映年份’和’上映地区’两列
2.将’上映地区’列中的’中国香港’改为’中国’,‘法国戛纳’改为’法国’
3.成功得出需要的格式
04数据分析
分析1: Top100电影地区分布
代码:
可视化:
结论:结果估计和大家的预料差不多,虽然此数据是由大多数中国网友投票得出的,但是美国还是几乎包揽了榜单的一半。毕竟美国作为电影制造大国,无论从制作水平,剧情设置,硬件设备等方面都远远领先其他国家,我们熟知的好莱坞也是大片频出。值得一提的是,日本的上榜数竟然有10部电影之多(国内也才16部)看来中国影迷对日本电影还是有不错的评价的。
分析2: Top100电影上映年份分布
代码2.1:
可视化2.1:
代码2.2:
可视化2.2:榜单前20
结论:
- 通过可视化结果2.1得出,从上世纪90年代到现在,榜单中电影分布相对均衡,这与大家经常听到的”这年头烂片横出,好电影越来越少”背道而驰。看来不是好电影越来越少了,而是拍电影的人越来越多了,好片率下降,使人们觉得好片越来越少了。但其实这并不影响每年的那几部好电影的“横空出世”
- 通过可视化结果2.2能看出来,虽然前面说了好电影时间上分布还算均衡,但是榜单前19名,却全部都是90年代的电影。看来经典中的经典,还得看90。90年代不愧被称为世界电影史的辉煌。
分析3: Top100电影风格分布
代码:
可视化结果:
结论:
越小众,占比越少(恐怖片,歌舞片),越大众,占比越多(爱情,喜剧)。这个风格分布其实和全部电影(不只是前100)的分布相似。本身基数小的小众风格先天不足,很难在这个榜单中占据多数,而剧情、爱情、喜剧这类老少皆宜,大家都爱看,大家都爱拍的电影基数特别大,能够占据更多的位置是情理之中。
现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。
分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!