前言
Box Office Mojo是一个拥有一些北美电影票房数据的网站,在业界堪称最权威的网站,该网站简称BOM
思路
分析该网站,我们可以找到请求的URL,这里以2011年的数据为例进行分析。
请求的URL为:https://www.boxofficemojo.com/daily/2011/?view=year
该URL中含有一个2011,想必我不说,大家也知道该怎样构造URL吧!这里可以用变量来代替2011,想要获取哪一年的数据,只需要让此变量等于指定的年份即可。好了,URL分析完了,下面我们再来分析一下网页中的数据。
可以看到数据在网页中是以表格的形式出现的,那么想要提取数据就非常简单了,直接用pandas来读取返回的网页源码即可。
代码
# !/usr/bin/env python