用Python爬取Box Office Mojo

「已注销」

于 2020-01-05 18:33:20 发布

阅读量2.5k

点赞数 1

分类专栏： Web Crawler 文章标签： python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Deep___Learning/article/details/103845667

版权

本文介绍了如何使用Python爬取Box Office Mojo网站上的电影票房数据。通过分析URL结构，以2011年为例，利用pandas读取网页源码提取表格数据。同时，注意需要伪装请求头以应对网站的反爬机制，并确保在追加写入数据到文件时，文件已存在。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 前言
- 思路
- 代码
- 注意
- 结果

前言

Box Office Mojo是一个拥有一些北美电影票房数据的网站，在业界堪称最权威的网站，该网站简称BOM
在这里插入图片描述

思路

分析该网站，我们可以找到请求的URL，这里以2011年的数据为例进行分析。
请求的URL为：https://www.boxofficemojo.com/daily/2011/?view=year
该URL中含有一个2011，想必我不说，大家也知道该怎样构造URL吧！这里可以用变量来代替2011，想要获取哪一年的数据，只需要让此变量等于指定的年份即可。好了，URL分析完了，下面我们再来分析一下网页中的数据。
在这里插入图片描述
可以看到数据在网页中是以表格的形式出现的，那么想要提取数据就非常简单了，直接用pandas来读取返回的网页源码即可。

代码

# ！/usr/bin/env python

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。