原标题:Python 爬虫分析后疫情电影现状:从低迷到稳定
作者 | Gordon,Alice
出品 | CSDN(ID:CSDNnews)
自今年3月份全国疫情以来,很多行业都受到了很大的冲击,甚至倒闭破产的不胜其数,其中受影响最深的行业之一就是影院行业。直到7月20日,国家电影局发布的一则公告:低风险地区影院可有序恢复开放营业,才宣布中国影院行业开始要走出今年的“寒冬”。
复工后的电影院是否走出了低迷?让我们通过爬虫数据分析来一探究竟。
数据获取
本文数据来源于猫眼票房,通过抓取2019年7月20日至9月22日,以及2020年7月20日至9月22日的票房数据,来分析并比较疫情下的影院行业现状。
总共抓取了4861条数据,内容包括重映、零点场、点映和上映影片的每日票房数据。
图1 票房数据样例
另外,针对近期比较热门的两部院线影片《八佰》和《花木兰》,本文还抓取了豆瓣用户观影后的评论信息。由于豆瓣进行了全网限制,最多只能抓取500条评论。
图2 豆瓣影评样例
# 获取豆瓣电影ID
defcrawl_ID:
data = pd.read_excel( '票房数据.xlsx',sheet_name= '上映')
movies = list(data[ '电影名称'